Исследователи предложили фреймворк, который разбивает научные утверждения на атомы и сверяет каждый с таблицами и графиками по отдельности.
Мультимодальный фреймворк SciLens набрал 79,2% macro-F1 и 63,1% точности на парах «утверждение — доказательство» из бенчмарка SciClaimEval — это лучший публичный результат для задачи автоматической верификации научных утверждений по таблицам и графикам. Работа опубликована на NASA ADS и уже индексируется в Semantic Scholar.
Проблема, которую решает SciLens, хорошо знакома всем, кто пробовал проверять научные тексты языковой моделью в лоб: одно утверждение из статьи может одновременно содержать численный результат, сравнение с baseline, оговорку про область применения и объяснение механизма. Спросить у VLM «это правда или нет?» — значит получить ответ, в котором модель взвешивает все компоненты скопом и легко упускает деталь в подписи к оси графика.
Авторы обходят это через декомпозицию: каждое утверждение разбивается на «центральные эмпирические атомы» — конкретные проверяемые факты — и «фоновые атомы» с контекстом. Центральные атомы затем заземляются на конкретные свидетели в доказательной базе: для таблиц это строки, столбцы, ячейки и арифметические отношения; для рисунков — панели, оси, легенды, визуальные кодировки, тренды и ранги. Итоговый вердикт формируется правилом: утверждение считается поддержанным только тогда, когда каждый центральный атом влечётся из найденного свидетеля. Один несостыкованный атом — и вся цепочка рушится.
Это элегантная идея, но у неё есть очевидный изъян: декомпозиция и заземление сами выполняются языковой моделью. Если модель неверно нарезала атомы или ошиблась при сопоставлении с фигурой, ошибка распространяется на весь вывод — и никакая строгость правила вывода её не поймает. Авторы честно фиксируют 63,1% точности на парах, что оставляет заметный зазор до практической надёжности.
Контекст важен: автоматическая верификация научных утверждений нужна не только для борьбы с фейками. Она встраивается в пайплайны систем, которые сами генерируют гипотезы и проверяют их на корпусах статей — то, что принято называть «автоматизированным научным открытием». Без надёжного верификатора такие системы рискуют накапливать ошибки на каждом шаге. SciLens закрывает ровно этот участок — и структурированность его вывода позволяет хотя бы понять, на каком атоме система споткнулась, а не просто получить «неверно» без объяснений.
Следить за развитием работы удобнее всего через Connected Papers или Litmaps — оба инструмента строят граф цитирований и покажут, кто возьмёт SciLens за основу. Пока фреймворк протестирован на одном бенчмарке; реальная проверка начнётся, когда его встроят в живые исследовательские агенты и посмотрят, сколько ложных подтверждений он пропускает в дикой природе.
Originally posted on arxiv.org
Top comments (0)