DEV Community

Cover image for AI-ассистент для документации из wiki Яндекса с использованием RAG и LangChain
Andrew Markhai
Andrew Markhai

Posted on

AI-ассистент для документации из wiki Яндекса с использованием RAG и LangChain

Собрал небольшой прототип чат-ассистента, который умеет отвечать на вопросы по внутренней документации.

Под капотом — классическая схема Retrieval-Augmented Generation (RAG): данные хранятся в векторной базе, а при каждом запросе к OpenAI подмешивается контекст из релевантных документов.

Проект заточен под wiki Яндекса, но если заменить парсер, можно использовать для любой другой базы знаний.

Как работает:

  • Парсинг документации — скрипт вытягивает нужные страницы из wiki и сохраняет их в .md.
  • Ингест — Markdown-файлы превращаются в векторы (через Sentence-Transformers или OpenAI embeddings) и индексируются в FAISS.
  • RAG-агент — при запросе ищет релевантные куски текста, добавляет их в промпт и отправляет в OpenAI API.
  • Всё это обёрнуто в простой CLI-интерфейс, можно общаться с ботом прямо из терминала.

Что умеет:

  • Отвечает на вопросы по документации
  • Находит и цитирует источники (https://wiki.yandex.ru/...)
  • Поддерживает русский язык (вопросы и ответы)

Как запустить расписывать здесь не буду, есть подробное README.md в репозитории.

Полезность сомнительная, но для экспериментов с RAG и векторными базами — пойдет.

Ну и, конечно, почти весь код написал ChatGPT, я только немного подкрутил под свои нужды.

Top comments (0)