survey: Prompting Large Language Models for Counterfactual Generation: An Empirical Study

#openai

選定理由

ACL2024採択、Wuhan Universityの研究。LLM + Causal Inference、反事実のデータを生成するタスクは生成AIは強そう。

Paper: https://aclanthology.org/2024.lrec-main.1156/
Code: N/A

empirical study なのでプロンプトエンジニアリングによる反事実の生成に対して基礎的な評価をした内容

概要

【社会課題】
事実と反する文章(反事実)が生成できれば異なる条件下でのAIの予測変化を理解できるようになり、AIの意思決定の説明責任やバイアス・ハルシネーションの検出に役立てることができる。一方で、LLMを用いて反事実を生成する際の条件として以下が求められる：

一貫性: 現実のシナリオと矛盾しないこと
関連性: 特定の問題や文脈に適切に関連していること
創造性: 新たにシナリオを創造すること。なお一貫性と相反するためバランスが重要

【技術課題】

感情分析などのタスクでは、モデルが本質的に関係のない文脈語(context words)に頼ってラベルを予測してしまうことがある。これはアノテーションバイアス(=交絡因子)により、文脈語とラベルの間に疑似相関が生じるためである。この問題を解決するには、文脈語を固定し、因果語(causal words)だけを操作してラベルを反転させた反事実文を生成・追加することで、モデルが本当に重要な語（因果語）に基づいて学習するように誘導する必要がある。

【提案・評価】
プロンプト: どのようなプロンプトが反事実生成に効果的かを実証的に調査
様々なモデルと比較: LLMがどの程度の精度で反事実を生成できるか、先行技術やモデル間で比較
データセットの応用: 反事実生成に適したデータセットを活用し、モデルの能力を実際のタスクで評価
　
【結果】

AIの公平性と透明性の向上: より正確で一貫性のある反事実生成を通じて、AIの意思決定プロセスが明確化され、説明責任が強化。これは特にAIの倫理性に重要
プロンプト最適化: 反事実の生成品質が向上
将来の研究の基盤形成: 反事実生成に関する知見を深める

LLM for Counterfactual Generation

図2に示されているように、提案する評価フレームワークは、以下の3つのステップから構成される：

S1（因果語の識別）：文中の因果的な語（causal words）と文脈的な語（context words）を分離
S2（ラベル制御付きのテキスト補完）：文脈語を変更せずに、因果語を変えることでサンプルのラベルを変更
S3（反事実データの拡張）：元のサンプルと反事実サンプルを組み合わせて、学習用のデータセットを構築

S1とS2はLLMへのプロンプトエンジニアリングによって実施され、S3で得られたデータは感情分析(Sentiment Analysis)などの一般的な自然言語理解(NLU)タスクを実行するバックボーンモデルの学習に用いる。

実験

実験条件、結果概要

反事実データ（ラベルだけ異なる文）を自動生成できるか、又、生成された反事実データが小型モデル（SLM）の学習に有効かどうか、を検証した。タスクは以下を使用。

SA（Sentiment Analysis）：感情分類（positive/negative）
NLI（Natural Language Inference）：前提と仮説の関係（entailment/contradiction/neutral）
NER（Named Entity Recognition）：固有表現抽出（人物、組織など）
RE（Relation Extraction）：エンティティ間の関係分類（e.g., employee_of）

タスク	LLMによる反事実生成の成功率	反事実データ追加によるSLMの性能変化	備考
SA（感情分析）	高い（因果語が明確）	精度が向上	効果が大きく、文の自然さも高い
NLI（自然言語含意）	中程度	精度がやや向上	曖昧な文では誤りもあり
NER（固有表現抽出）	低い（置換が困難）	ほぼ効果なし	固有名の不自然な書き換えが多い
RE（関係抽出）	非常に低い	逆効果の場合あり	複雑な関係性を正しく反転できない

GPT-3.5は簡単なラベル（SAやNLI）には強いが、構造や知識が必要なタスク（NERやRE）には弱い。
CoT（Chain-of-Thought）は反事実生成にはほぼ効果なし。
正しいラベルに到達しても、文として不自然な場合も多い。
小規模モデルは、質の悪い反事実データを入れるとかえって性能が下がる。

結果詳細

図３は様々なタスクでのfew-shot数を変えた場合の精度比較であり、NERとREではSLMの方がfew-shot数が多い場合に有利である。これはfew-shot数が増えるとLLMが長文理解に弱い点が影響してしまい、SLMのfinetuningに比べると学習されにくい点が原因と思われる。ただしこれは反事実生成に限った話で、[Wang2023]ではfew-shotの数に応じて性能向上が見られる。反事実生成は「多段階の意味操作と構造操作」を含むタスクであり、LLMが例の一般化に失敗しやすいためと考えられる。