選定理由&所感
中国の国防科技大学の研究、MDPI2025
Paper: https://www.mdpi.com/2079-9292/14/5/1012
Code: N/A
国防でこの技術をつかうのだろうか。
概要
【社会課題】
産業・医療・金融などの複雑な専門知識(ビジネスドメイン知識)を必要とする場面での意思決定支援においては自動化が不足し以前として人手による人海戦術が多い。
【技術課題】
現状のLLMは学習に使用しているテキストが構造化されていないデータのため、複雑な論理ステップを必要とする事実検証やマルチホップ推論では不十分な性能である。一方で知識グラフは構造の複雑さやタスクに対する不確定さを内包するため両者をそのまま組み合わせても、精度と解釈性の両立が難しい。
【提案】
DKGM-path(Domain Knowledge Graph Metapath Prompting)を提案:
- KG内のMetapath(概念間の意味的経路)を抽出し、LLMにプロンプトとして与える。
- LLMが推論経路を言語的に計画 → KGから事実を検証 → 推論を反復的に精緻化。
- このプロセスにより、意味理解・構造把握・事実検証を融合。
【効果】
LLMが単独で行うよりも一貫性・正確性・解釈可能性が改善し、特に複雑なドメイン知識に対するマルチホップ推論精度が大幅に向上した。プロンプト学習による汎用性もあり、他分野への適応が容易である。
Domain Knowledge Graph Metapath Prompting
Case Study
一般的な解説部分は分かりづらいので4.2.5節のWebQSPデータの例で説明する。
ステップ1:MetaPathの生成
質問「iPodはどのOSと互換性がありますか?」のMetaPathとしてLLMのゼロショットで出力した例は以下である:
iPod → compatible_oses → Mac OS → developer → Apple Inc. → name → "Apple Inc."
ステップ2:初期ノードの確定と隣接ノードの取得
MetaPathに基づいて 初期エンティティ iPod(ID:/m/02hrh0)を知識グラフから取得。そこから知識グラフ上の隣接関係にあるノードを取得し次のステップ候補とする(スターサンプリング)。
ステップ3:反復的な推論とプロンプト更新
隣接ノード集合それぞれに対し、MetaPathで指定された関係性(例:/computer/hardware_device/compatible_oses)をLLMに判断させる。その後、隣接ノードへ移動し、そのノードの隣接ノード集合を取得しながら、グラフの局所情報をLLMへ入力しLLMが経路選択を行う。これを繰り返し、質問に答えるのに必要なノードに到達するまで続ける。
ステップ4:最終回答の生成
経路が確定し「答えに到達した」とLLMが判断した時点で、経由したエンティティ全体をまとめてLLMに最終プロンプトとして入力する。その結果が「Apple Inc.」として出力される。
実験
使用データセット一覧
データセット名 | 種別 | 質問数 | 学習 | テスト | 特徴 |
---|---|---|---|---|---|
WebQSP | QA | 4,737 | 3,780 | 957 | 意味解析付き、知識ベースQA向け、SPARQL付き |
CWQ | QA | 34,689 | 27,734 | 3,475 | 複雑な構造、多段階推論(論理演算・比較・上位語など) |
Hotpot-QA | Multi-Hop QA | 約100,000 | 不明 | 不明 | 橋渡し型/比較型、複数文書を統合して回答 |
MuSiQUE | Multi-Hop QA | 約25,000 | 不明 | 不明 | 2~4ステップ推論、中間質問・回答あり、文単位アノテーションなし |
実験結果(QA)
QAデータセットでの従来手法との比較は表2であり、提案手法がSOTAであることがわかる。又、追加実験で Mediacalqa という医療ドメインでの評価実験でもSOTAであり、汎化性能が高いことがわかる(表は省略した)。
Llama-2のゼロショットでの回答をベースラインとした比較を行った結果が表3である。どのデータセットでも改善効果があり、p<0.05とした有意差検定でも帰無仮説は棄却された。
実験結果(MultiHop-QA)
次にマルチホップQAデータセットでの実験結果が表5であり、こちらでも多くの項目で性能が高い。
必要なホップ数を変えたデータでの比較実験が図3である。DKGM-pathは4-hopのような長い推論過程が必要な場合に強いことが示されており、meta-Pathによる事前経路探索の効果であることがわかる。
要素除去実験(アブレーションスタディ)
MPC(Metapathの構築)は推論経路の事前初期化を行う処理であるが、関連エンティティの特定に重要な役割を果たしているため、除去すると最も大きく性能が低下した。IV(反復的検証)はステップごとに経路の妥当性を検証・洗練しており、複雑なマルチホップ推論でのハルシネーションの抑止に重要。最後にPRC(事後検証)の役割は最終回答に対する事実整合性と信頼性の評価であるため、除去しても精度は比較的保たれていた。
プロンプト最適化手法としての比較
Direct Prompting(通常のプロンプト), Chain of Thought, One-step Retrievalなどの従来手法と比較してもマルチホップ推論のデータセットで高精度であることがわかる。
Top comments (0)