GPT-RE: In-context Learning for Relation Extraction using Large Language Models

#deeplearning #nlp #gpt3

選定理由

LLMで識別系タスクである Relation Extraction を実施する方法・性能を知りたい。

Paper: https://arxiv.org/abs/2305.02105
Code: N/A

[Xiaofei2023]でも引用されている。

概要

【社会課題＆技術課題】
GPT-NERのサーベイと同じ。

【従来手法】
GPTのようなLLMは、関係抽出（RE）などの識別系タスクにおいて教師ありベースライン（例：fine-tuned BERT）に比べて大幅に劣る。これに対し GPT-NER で提案されているような文レベルの分散表現空間上のkNNを用いてfew-shotサンプルを選択する戦略が提案されているが、（コンテキスト学習のための）few-shotサンプルに含まれる固有表現の間で関連性に乏しいこと、NULLを他のラベルに誤って分類する傾向が強いことが原因となり、効果に乏しい。

【提案】
few-shot対象となる文の選択において、タスク特有のエンティティを埋め込みベクトルとして組み込み、さらに、ゴールドラベル誘導推論ステップをfew-shotに組み込むことで、選択した文が特定のラベルに分類されるべき理由と、NULLの例がどのカテゴリにも割り当てられない理由を説明することを提案した。この提案はChain of Thought[Wei2022]から着想を得ている。

【効果】
4つの広く使用されているREデータセットでGPT-REを評価した。GPT-REは既存のGPT-3ベースラインだけでなく、識別系モデルのベースラインに対しても改善した。GPT-REはSemevalとSciERCデータセットでSOTAの性能を達成し、TACREDとACE05データセットでも識別系モデルに匹敵する性能を示した。又、ゴールドラベル誘導推論ステップによりfew-shot が少ない場合でも予測が改善されていることを示した。

GPT-RE

Prompt Construction

３つの要素からなる。Task Description and Pre-defined Classes　の項目で解きたいタスクと事前定義のクラスを記述。Few-shot Demonstrations の項目で入力と出力例を示し、さらに推論モジュールから理由を補足する。Test Input　で最後に回答が欲しいクエリを入力する。

Fine-tuned Relation Representation

「彼はリサという姉がいる」という文脈が与えられた場合、関係抽出を考慮した文の再構成として「文脈中の'彼'と'リサ'の関係：彼はリサという姉がいる」という文をfew-shotに付与することを考える。このアプローチは、REの特徴に対応しており、検索中に文全体の意味とエンティティペア中心の情報の両方を保持する。最新の（自己教師型の）トークン埋め込みモデルであるSimCSE (Gao et al., 2021)を使用して文の類似度計算を行い、再構築された文脈間で最も近い隣接文脈を選択する。

Gold Label-induced Reasoning

Gold Label-induced Reasoningでは図3に示されているように、選択された文が与えられると、まずその文に基づいてクエリのプロンプトを生成し、次に GPT-3 に対して、文脈中のエンティティのペア間のラベル付けされた関係に関する手がかりを生成するように問いかける。最後に、生成された手がかりを元の例と組み合わせて few-shot を拡充する。

実験

複数のデータセットの実験結果、一部のデータセットでは識別系モデルの性能を超える結果となっている。

一般的なドメインのSemevalタスクにおける低リソース下での性能評価を行うために実験を行った。図5に示すように、(1) 学習例が650サンプル（10%）未満の場合、すべてのGPT-3ベースの結果はファインチューニングよりも優れる。これは、一般ドメインのREでは、GPT-3が豊富な先行知識を活用して関係を理解できることを示す。(2) GPT-RE_SimCSEは、学習サイズが30%を超えた後、GPT-Sentとの間に大きな違いが現れるようになる。これは学習候補の数が少ない場合、文選択の効果が制限されると考えられる。(3) GPT-RE_FTは、すべての設定で上限パフォーマンスを達成している。ファインチューニング対象のモデルが数百の学習データ（#100から#400）でパフォーマンスが低い場合でも、これは高品質なデモンストレーションを獲得するための優れた関係抽出の表現の効果を示している。

GPT-Sentで取得されたfew-shot用のサンプル文は、「CONTENT AND CONTAINER」の意味に焦点を当てているが、エンティティでは明示されていない。一方、GPT-RE_SimCSEでは、より関連性の高いデモンストレーションが取得されており、"catch"と"fish"の間の同じ意味的関係を示しているが、ゴールドラベルは"catch"と"scuttle"の間にあり、若干の不一致がある。最後に、GPT-RE_FTのデモンストレーションは、テスト入力と同様の構造を持ち、エンティティのペアに関するキーヒントが関係の予測にとって重要であることを示している。