DEV Community

Tutty
Tutty

Posted on

Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering

選定理由と所感

Abode ResearchとKAISTの共同研究。

Paper:https://arxiv.org/abs/2409.02361
Code:
Blog:https://zenn.dev/knowledgesense/articles/abf34c417b079e

検索時のRecallを改善する目的で検索結果に多様性を陽に与えるアプローチは従来からよくある。LLMの知識を用いて多様性を与えると反復的に深堀するよりも検索・応答性能が高くなるが、現在のLLMの特性に依存する面があると思われる。

概要

【社会課題】
search-o1 と同じ

【技術課題】
ユーザークエリと検索対象の文書集合の母集団分布には常に乖離があり、1回の検索では適切な文書を取得することが困難である。又、事前検証実験により中途半端な情報、余計な情報が交じるとLLMの回答性能はかえって悪化することがわかっている(図3)。

fig3

そして既存の反復的なRAG戦略(例:[Shao2023])は検索回数の増加による時間コスト、資金コストの増大という欠点があった。

【提案】
Diversify(多様化):曖昧な質問から複数の具体的なサブクエリ(疑似解釈)を生成し、それぞれに対して文書を検索
Verify(検証):取得した文書が各サブクエリに対して有用かどうかを評価し、関連性の低い文書を除外
Adapt(適応):検証結果に基づき最適な生成戦略を選択し、最終的な回答を生成

という3ステージを実行するDIVA(Diversify-Verify-Adapt)を提案

【効果】
精度向上:従来のRAGや反復的RAGと比較して、DIVAはより高いD-F1スコアを達成
効率性:DIVAは反復的RAGよりも約2倍高速で、コストも約1.8倍低減

DIVA(Diversify-Verify-Adapt)

fig8

DIVAとIter-RAGを比較した全体像は図8である。

Retrieval Diversification (RD)

fig4

図4に示すようなプロンプトを用いてクエリの曖昧性をパターン分類し、疑似解釈を生成する。これは人間も曖昧な質問を受けた際に、曖昧な点をまず明確化してから回答する行為に似ている。曖昧性の分類と疑似解釈を同時に1つの推論で実施すると、精度が低下するため1つずつ行う(以下の式)。

QiLLM(qi,Ip,LLM(qi,Ia)) Q_i \leftarrow \mathrm{LLM}(q_i, I_p, \mathrm{LLM}(q_i, I_a))

Retrieving Relevant and Diverse Passages

曖昧性のないクエリの場合には単一パッセージのみ取得する、曖昧性を含むクエリの場合は疑似解釈により得られたパッセージの論理和を取得する。

Pruning Noisy Passages

Diversify 時に元のクエリに関連性の低い文書が回収される可能性があるため、これを除去するための Pruning を行う。ノイズのパターンとしては検索時のRetrieverに起因するものは疑似解釈に関係なく均一に混入し、疑似解釈の誤りに起因するものはその疑似解釈での検索に多く混入すると考えられる。

S(p)=1Q^ij=1Q^iEnc(q^j)Enc(p)Enc(q^j)Enc(p) S(p) = \frac{1}{|\hat{Q}i|} \displaystyle\sum{j=1}^{|\hat{Q}_i|} \frac{\text{Enc}(\hat{q}_j) \cdot \text{Enc}(p)}{|\text{Enc}(\hat{q}_j)| \cdot |\text{Enc}(p)|}

そこで上記スコア関数にてスコアリングを行い、top-k 以下のものを除外する。この計算法は関連性を定量化する際によく用いられる。

Adaptive Generation (AG)

Retrieval Verification (RV)

生成された疑似解釈とそれによって取得された文書を用いて、それぞれの疑似解釈の質問に回答できているかを判定する。一つでも回答できていると判断された場合は文書をLLMに渡して回答。一つも回答できていなかった場合は文書を提供せずLLMに直接回答させる

実験

fig6

図6によると反復的なRAGよりも早く、正確であることがわかる。

Table1

Vanilla RAG, Iterative RAG, CRAGなど各種SOTAなRAG手法と比べても高い性能であることがわかる。

Top comments (0)