📄Paper: RORA-VLM: Robust Retrieval Augmentation for Vision Language Models

#ai #vlm #rag #paper

Public At
International Conference on Learning Representations (ICLR) 2025

💡 Why I read this
最近在找論文的 idea 剛好找到這篇，發表在 ICLR 2025，不過被 Reject 了有點可惜
這篇主要是把 RAG 應用到 VLM ，讓模型在回答問題時可以利用外部知識
在很多 VQA 的任務中，答案其實不在圖片裡面，而是需要額外的背景知識
例如一張圖顯示一種鳥，問題是：「這種鳥主要分布在哪裡？」
圖片只能讓你看出鳥長什麼樣，但像棲地這種資訊一定要查資料才知道
這篇主要在解決：「當 retrieved knowledge 有 noise 時，VLM 怎麼還能穩定推理？

🧠 Core idea

作者提出一個 robust retrieval framework 給 VLM：

1. Two-stage retrieval

先用 image retrieve 相似 entity，再用 entity expansion 做 text retrieval。

在第一個階段，他們把 query image 當作一個「anchor」，去資料庫裡找很多長得很像的圖片。

他們用的資料庫叫 WIT，裡面有 3700 萬張圖片，每張圖片都搭配一個 entity 的名字跟描述。

在第二個階段，他們把在第一個階段拿到的 entity 名稱、描述加進原本的問題裡面，變成一個更具體的 query，再去用 google 查知識(call api)

✨ For Example

原本的問句:

which year was this building built?

找到的 Entity

Castle of Good Hope

新的 Query (原本的問句 + entity)

which year was Castle of Good Hope built?