Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering

#rag #gpt

選定理由と所感

Abode ResearchとKAISTの共同研究。

Paper:https://arxiv.org/abs/2409.02361
Code:
Blog:https://zenn.dev/knowledgesense/articles/abf34c417b079e

検索時のRecallを改善する目的で検索結果に多様性を陽に与えるアプローチは従来からよくある。LLMの知識を用いて多様性を与えると反復的に深堀するよりも検索・応答性能が高くなるが、現在のLLMの特性に依存する面があると思われる。

概要

【社会課題】
search-o1 と同じ

【技術課題】
ユーザークエリと検索対象の文書集合の母集団分布には常に乖離があり、１回の検索では適切な文書を取得することが困難である。又、事前検証実験により中途半端な情報、余計な情報が交じるとLLMの回答性能はかえって悪化することがわかっている（図３）。

そして既存の反復的なRAG戦略(例:[Shao2023])は検索回数の増加による時間コスト、資金コストの増大という欠点があった。

【提案】
Diversify（多様化）：曖昧な質問から複数の具体的なサブクエリ（疑似解釈）を生成し、それぞれに対して文書を検索
Verify（検証）：取得した文書が各サブクエリに対して有用かどうかを評価し、関連性の低い文書を除外
Adapt（適応）：検証結果に基づき最適な生成戦略を選択し、最終的な回答を生成

という３ステージを実行するDIVA（Diversify-Verify-Adapt）を提案

【効果】
精度向上：従来のRAGや反復的RAGと比較して、DIVAはより高いD-F1スコアを達成
効率性：DIVAは反復的RAGよりも約2倍高速で、コストも約1.8倍低減

DIVA（Diversify-Verify-Adapt）

DIVAとIter-RAGを比較した全体像は図８である。

Retrieval Diversification (RD)

図4に示すようなプロンプトを用いてクエリの曖昧性をパターン分類し、疑似解釈を生成する。これは人間も曖昧な質問を受けた際に、曖昧な点をまず明確化してから回答する行為に似ている。曖昧性の分類と疑似解釈を同時に１つの推論で実施すると、精度が低下するため１つずつ行う（以下の式）。

Q_i \leftarrow \mathrm{LLM}(q_i, I_p, \mathrm{LLM}(q_i, I_a))

Retrieving Relevant and Diverse Passages

曖昧性のないクエリの場合には単一パッセージのみ取得する、曖昧性を含むクエリの場合は疑似解釈により得られたパッセージの論理和を取得する。

Pruning Noisy Passages

Diversify 時に元のクエリに関連性の低い文書が回収される可能性があるため、これを除去するための Pruning を行う。ノイズのパターンとしては検索時のRetrieverに起因するものは疑似解釈に関係なく均一に混入し、疑似解釈の誤りに起因するものはその疑似解釈での検索に多く混入すると考えられる。