AI-ассистент для документации из wiki Яндекса с использованием RAG и LangChain

#rag #langchain #yandexwiki #ai

Собрал небольшой прототип чат-ассистента, который умеет отвечать на вопросы по внутренней документации.

Под капотом — классическая схема Retrieval-Augmented Generation (RAG): данные хранятся в векторной базе, а при каждом запросе к OpenAI подмешивается контекст из релевантных документов.

Проект заточен под wiki Яндекса, но если заменить парсер, можно использовать для любой другой базы знаний.

Как работает:

Парсинг документации — скрипт вытягивает нужные страницы из wiki и сохраняет их в .md.
Ингест — Markdown-файлы превращаются в векторы (через Sentence-Transformers или OpenAI embeddings) и индексируются в FAISS.
RAG-агент — при запросе ищет релевантные куски текста, добавляет их в промпт и отправляет в OpenAI API.
Всё это обёрнуто в простой CLI-интерфейс, можно общаться с ботом прямо из терминала.

Что умеет: