RAG (Retrieval-Augmented Generation) — это архитектура, в которой языковая модель сначала ищет релевантные документы во внешней базе знаний, а потом формирует ответ на их основе. Простыми словами: вместо догадок из памяти модель сверяется с актуальными источниками. Подход описан в статье Patrick Lewis и команды Facebook AI Research в мае 2020 года.
К 2024 году RAG стал базовым шаблоном корпоративных ассистентов на ChatGPT, Claude и Gemini. Технология ответа с подкреплением фактами снижает количество галлюцинаций LLM на 40–60% по бенчмаркам Stanford HELM и решает, для чего нужно подключать векторные базы вроде Pinecone, Weaviate и Qdrant.
§ 01Что это и чем отличается
Классическая LLM отвечает только из весов, замороженных на дате обучения — GPT-4o, к примеру, ограничен октябрём 2023. RAG (генерация с подкреплением поиском) добавляет шаг retrieval: запрос превращается в эмбеддинг, по косинусной близости находятся top-k фрагментов в векторной базе, и они подставляются в промпт. Что это значит на практике — модель цитирует свежие документы, инструкции и внутреннюю вики, а не выдумывает.
§ 02На кого влияет
RAG переворачивает работу техподдержки, юристов и медицинских сервисов. Klarna в 2024 году заменила 700 операторов AI-ассистентом на RAG, обрабатывающим 2,3 млн диалогов в месяц. Технология с подкреплением фактами критична для GEO-оптимизации: AI Overviews и Perplexity используют ровно такую схему — ищут источники в индексе и генерируют ответ. Зачем это SEO-специалисту: попадание сайта в retrieval-выдачу теперь важнее позиции в классическом ТОП-10.
точность ответов 62% → 89% — B2B SaaS-платформа поддержки клиентов на Intercom внедрила RAG поверх GPT-4o с векторной базой Pinecone на 12k статей. Точность ответов бота выросла с 62% до 89% за 4 месяца. Замер через ручную разметку 500 диалогов и LangSmith-трейсы.
галлюцинации −71% — Медицинский edtech-портал для подготовки к USMLE подключил RAG на LlamaIndex с базой из 8 учебников и 3k клинических гайдлайнов. Доля галлюцинаций в ответах упала на 71% за 8 недель. Контроль через RAGAS-метрики faithfulness и answer relevancy.
§ 03Как адаптироваться
С чего начать внедрение RAG: разбейте корпус на чанки по 256–512 токенов, посчитайте эмбеддинги моделью text-embedding-3-large от OpenAI или bge-m3 от BAAI, загрузите в Qdrant или pgvector. Поверх — реранкер Cohere Rerank 3 для повышения точности на 15–20%. Для контента сайта: добавляйте структурированные данные Schema.org, чёткие FAQ-блоки и фактические утверждения с датами — именно такие фрагменты RAG-системы Google и Perplexity вытаскивают чаще всего.
§ 04Что будет дальше
Тренд 2025 года — agentic RAG и GraphRAG от Microsoft Research (февраль 2024), где поиск идёт по графу сущностей, а не по плоским чанкам. Контекстные окна выросли до 2 млн токенов у Gemini 1.5 Pro, но RAG не умирает: подача 2 млн токенов стоит дороже и медленнее retrieval из векторной базы. Илья Гусаров отмечает, что оптимизация под AI-поиск становится отдельной услугой — LLMO, и компании, не описавшие свои продукты в машиночитаемом виде, выпадают из ответов ассистентов.