Для большинства корпоративных внедрений ИИ в 2026 году правильный ответ — сначала RAG, дообучение по доказательствам. Начните с RAG, измерьте, где модель всё равно даёт сбои, и дообучайте только на тех режимах отказа, которые RAG не может устранить. Эта статья — инженерное обоснование этой рекомендации, матрица решений, позволяющая адаптировать её к вашей задаче, и гибридная модель, к которой сходится большинство производственных систем в первые 18 месяцев.
Определения и различия, которые имеют значение
RAG (retrieval-augmented generation, генерация с извлечением) — это паттерн, при котором ИИ-модель извлекает релевантные документы из базы знаний во время запроса и использует их как дополнительный контекст для формирования ответа. Веса модели не изменяются. Поведение меняется, потому что меняется входной контекст.
Дообучение (fine-tuning) — это процесс обучения существующей ИИ-модели на дополнительных задачно-специфичных данных, чтобы её веса адаптировались к более узкому домену. Веса модели изменяются постоянно (до следующего дообучения). Поведение меняется, потому что меняется сама модель.
Различия, имеющие значение в продакшене:
- Обновление знаний. RAG: замените документ — модель немедленно использует новый. Дообучение: нужно перезапустить обучение.
- Цитирование. RAG: модель может напрямую ссылаться на исходные документы. Дообучение: знания закодированы в весах — атрибуции источников нет.
- Структура затрат. RAG: высокая стоимость инференции (каждый запрос извлекает и обрабатывает больше токенов), низкая единовременная стоимость. Дообучение: высокая единовременная стоимость, более низкая стоимость запроса.
- Стиль / формат / язык домена. RAG: несовершенный — даже с примерами в контексте стиль модели по умолчанию проявляется. Дообучение: надёжное — модель усваивает соглашения.
- Чувствительность данных. RAG: данные остаются в вашем хранилище извлечения, из него выходят только документы, подходящие к запросу. Дообучение: данные запечены в веса модели — атаки извлечения против дообученных моделей являются активной областью исследований.
- Галлюцинации. RAG с требованием заземления: галлюцинации резко падают, поскольку модель можно ограничить ответами только из извлечённых документов. Дообучение: галлюцинации снижаются на внутридоменных запросах, но модель более уверена на внедоменных — что является другим режимом отказа.
Когда использовать RAG
Используйте RAG, когда задача зависит преимущественно от знаний, которые меняются, знаний, которые нужно атрибутировать, или знаний, объём которых слишком велик для экономически эффективного дообучения.
Конкретные случаи, где RAG является правильным основным выбором:
- Агенты внутренних знаний. Сотрудники задают вопросы о политиках, процедурах, контрактах, коде, клиентских аккаунтах. Знания обширны, регулярно меняются и требуют цитирования.
- Поддержка клиентов по задокументированному продукту. Документация обновляется часто. Галлюцинации требуют цитат для доверия.
- Юридические исследования. Судебная практика и законы постоянно обновляются. Цитирование обязательно.
- Клиническая поддержка принятия решений в здравоохранении. Медицинская литература обновляется ежедневно. Атрибуция источников обязательна.
- Q&A с длинным хвостом, где распределение вопросов слишком широко для перечисления в виде примеров дообучения.
Экономический аргумент в пользу RAG-сначала: в мире, где базовая модель улучшается каждые полгода и вы не владеете её весами, не стоит ставить своё поведение на конкретный снимок модели. RAG сохраняет вашу дифференциацию на уровне данных (которые вы контролируете), а не на уровне модели (которую вы не контролируете).
Когда дообучение стоит инвестиций
Используйте дообучение, когда задача зависит от стиля, формата или доменных соглашений, которые нельзя надёжно описать в промпте — или когда стоимость контекста промпта, необходимого для их описания, запретительна в масштабе.
Конкретные случаи, где дообучение себя оправдывает:
- Высокостилизованные результаты. Конкретный стиль написания, конкретный шаблон документа, конкретный стиль кода в тысячах генераций.
- Язык домена. Специализированная терминология, где модели общего назначения колеблются или используют неверные формулировки.
- Классификация в масштабе. Классификация с миллионом запросов в день, где даже сокращение 200 токенов префикса промпта на запрос даёт существенную экономию.
- Соответствие формату. Результаты, должны точно соответствовать JSON-схеме, регуляторному формату или протоколу устаревшей системы с очень низкой частотой ошибок.
- Дистилляция. Сжатие поведения frontier-модели на конкретной задаче в меньшую, более дешёвую модель — часто наиболее окупаемое использование дообучения в 2026 году.
Случай, где дообучение не является правильным ответом, несмотря на привлекательность: кодирование фактических знаний в модель. Помещение вашей клиентской базы данных в дообученную модель технически возможно и почти всегда хуже RAG. Обновления медленные, цитирование невозможно, а атаки извлечения данных становятся реальной угрозой.
Матрица решений
| Требование | RAG силён | Дообучение сильно | |---|---|---| | Знания меняются ежемесячно или чаще | Да | Нет | | Требуется цитирование источников (юридическое, клиническое, аудит) | Да | Нет | | Согласованность стиля или формата в генерациях | Нет | Да | | Специализированный словарь домена | Смешанно | Да | | Объём оправдывает снижение стоимости промпта | Нет | Да | | Данные чувствительны и не должны покидать контролируемое хранилище | Да | Нет | | Должно работать на небольшой модели на собственных серверах | Смешанно | Да | | Частота галлюцинаций должна быть очень низкой | Да | Смешанно |
Большинство задач имеют требования в обоих столбцах. Гибридная модель ниже — вот как реально выглядят производственные системы.
Гибридная модель
Архитектура, к которой сходится большинство успешных корпоративных ИИ-команд в течение 12–18 месяцев после развёртывания:
- Frontier базовая модель как вычислительное ядро (Claude, GPT или Gemini).
- Слой RAG для всех изменяемых или атрибутируемых знаний — внутренняя документация, клиентские данные, регуляторные тексты, потоки данных в реальном времени.
- Небольшая дообученная модель для конкретных высокообъёмных подзадач форматирования или классификации, где доминирует стоимость промпта.
- Политика заземления — система настроена отказывать в ответе, когда извлечение не возвращает релевантных документов выше порога достоверности, или сигнализировать о неопределённости в ответе.
- Тестовый жгут оценки, запускающий один и тот же набор тестовых запросов к системе при каждом развёртывании и выявляющий регрессии как в слое извлечения, так и в слое модели.
Границы между (1) и (3) смещаются со временем по мере того, как небольшие дообученные модели сокращают разрыв на конкретных задачах, а frontier-модели приобретают возможности, ранее требовавшие дообучения.
Расчёт стоимости: точка перегиба
Упрощённая версия решения по стоимости:
- Предельная стоимость RAG на запрос ≈ (извлечённые токены × цена входа) + (токены вывода × цена вывода). Для окна извлечения в 10 000 токенов с frontier-моделью по тарифам 2026 года — ~$0,03 за запрос.
- Предельная стоимость дообученной модели на запрос ≈ (токены входа × цена входа) + (токены вывода × цена вывода), где префикс промпта значительно короче, поскольку форматирование/стиль в весах. ~$0,005 за запрос для небольшой дообученной модели.
Точка пересечения наступает примерно при 6 миллионах запросов в год для задачи, не требующей цитирования и со стабильными знаниями. Ниже — выигрывает RAG. Выше — дообучение начинает окупаться. Большинство корпоративных процессов находится ниже точки пересечения. Процессы поддержки клиентов и потребительские — выше.
Более полный анализ затрат включает стоимость разработки (RAG: конвейер данных, векторное хранилище, настройка извлечения; дообучение: подготовка данных, обучение, оценка), стоимость обслуживания (RAG: обновление индекса, мониторинг качества извлечения; дообучение: переобучение при устаревании базовой модели) и стоимость зависимости от поставщика (RAG: портируемость между моделями; дообучение: привязка к конкретному снимку базовой модели).
Режимы отказа, которые нужно предусмотреть
RAG проваливается, когда:
- Извлечение некачественное. Модель получает нерелевантные документы и уверенно их использует. Это доминирующий режим отказа в производственных RAG-системах, устраняемый работой по качеству извлечения — но именно эту работу большинство команд пропускает.
- Документы противоречат друг другу. Два извлечённых документа расходятся. Модель выбирает один без доказательств. Противодействие: явное обнаружение конфликтов, представление обоих с цитированием.
- Запрос требует рассуждения по многим документам. RAG за один проход возвращает фиксированное количество документов; рассуждение с несколькими переходами требует либо итеративного извлечения, либо моделей с более длинным контекстом.
- Словарный запас пользователя не совпадает с документами. Семантический поиск закрывает большую часть разрыва; расширение запроса закрывает ещё больше. Плохое совпадение по ключевым словам по-прежнему является реальной поверхностью отказа.
Дообучение проваливается, когда:
- Обучающие данные содержат предвзятость, которую команда не заметила. Дообученная модель её усиливает. Противодействие: оценка предвзятости как условие развёртывания.
- Распределение смещается после обучения. Мир меняется; модель этого не замечает. Противодействие: мониторинг дрейфа + расписание переобучения.
- Базовая модель устаревает. Дообученные веса привязаны к конкретной базовой модели. Когда поставщик снимает её с поддержки, нужно переобучать. Противодействие: закладывайте эту стоимость с самого начала.
- Обучающих данных было недостаточно. Дообучение небольшой модели на слишком малом объёме данных ведёт к переобучению; дообучение большой модели на слишком малом объёме данных смещает поведение непредсказуемым образом. Противодействие: минимальные пороги данных перед одобрением дообучения.
Грайд принятия решений из пяти вопросов
Если вам нужно выбрать начальную архитектуру для новой задачи, последовательно проработайте эти вопросы:
- Меняется ли ответ по мере обновления вашей базы знаний? → RAG.
- Должна ли система цитировать источники? → RAG.
- Задача преимущественно о последовательном стиле, формате или терминологии? → Дообучение (часто дистилляция frontier-модели на примерах стиля).
- Обрабатываете ли вы >5 млн запросов/год стабильного процесса без цитирования? → Дообучение становится экономически привлекательным.
- Ничто из вышеперечисленного не доминирует? → По умолчанию RAG. Дешевле в запуске, проще в итерировании, и путь к добавлению дообучения позже хорошо изучен.
Чем эта статья не является
Это не руководство по инструментам. Мы не называли конкретную векторную базу данных, конкретную модель эмбеддингов или конкретного провайдера дообучения — эти решения находятся ниже по течению от архитектурного выбора и зависят от вашего облака, требований к размещению данных и текущих навыков команды. После правильного выбора архитектуры инструменты становятся commodity-решениями.
Если вам нужна помощь в сопоставлении конкретной задачи с правильной архитектурой — включая оценки стоимости разработки, бенчмарки качества извлечения и план обслуживания — запишитесь на рабочую сессию. Результат одной девяностоминутной сессии — заполненный документ архитектурного решения с источниками для каждого утверждения, готовый к инженерному ревью.