Ошибка "Переключателя Языка"
Когда канадские госслужащие или корпоративные клиенты спрашивают у крупных ИЭ-поставщиков о поддержке двух языков, они всегда слышат дежурное: «Да, наша система поддерживает французский». На демо-презентации продавец торжественно переключит флажок в углу интерфейса, и чатбот начнет отвечать на французском.
Это не двуязычный ИИ. Это мультиязычный ИИ с английской базой и поверхностным слоем перевода. Разница колоссальная, особенно для канадских правительственных учреждений, работающих в рамках Law of Official Languages (Закона об официальных языках).
Подлинная двуязычность — это не фича. Это фундаментальное архитектурное решение, определяющее то, как сеть обучается, какие базы данных использует и как управляется контент. Большинство компаний об этом не думают: они строят умную англоязычную базу, прикручивают к ней "французский переводчик" (DeepL/Google) и продают эту иллюзию.
Чего требует закон
Для федеральных ведомств Канады двуязычие — это юридическая обязанность. Закон требует, чтобы государственные услуги на французском и английском предоставлялись в равном качестве.
"Равное качество" здесь — ключевое. Если на английском бот отвечает блестяще, эмпатично и контекстно, а на французском выдает деревянный дословный машинный перевод, то закон нарушен прямо сейчас. В случае аудита или проверки цифровых сервисов от Генерального ревизора отговорка формата: «Ну, в договоре было написано, что бот говорит на французском» — не спасет от многомиллионных штрафов.
Техническая реальность: Брак в исходных данных
Проблема лежит глубоко в самих нейросетях (LLM). Самые мощные модели в мире на 90% обучаются на текстах англоязычного интернета. Французский там есть, но в пропорциях, не соответствующих реальной картине мультикультурных стран.
Как следствие, мы получаем измеримое падение интеллекта модели при работе с французским языком. Сложная логика, калибровка тона и профильные термины обрабатываются хуже. ИИ буквально 'менее умен' на другом языке.
В канадском госсекторе всё еще хуже из-за языковой специфики. Государство использует канадский французский (Квебекский) с его особым строением терминов и формализмом. Если модель обучалась на обычном европейском французском, она выдает текст, который звучит "правильно", но совершенно чужеродно для жителей Монреаля или государственного портала. Требуется калибровка бенчмарков (Benchmarks) именно для канадского диалекта.
Тестирование нельзя делегировать только машинам
Бот, который не был протестирован живым носителем языка в полевых условиях, — это бот-загадка. Полноценный аудит требует тестовых сценариев на обоих языках и проверяющих-франкофонов. Проверять нужно на соответствие государственной терминологии, а не "сверяя со словариком синонимов". Хуже того, патчи и апдейты системы на английском могут неожиданно "сломать" качество вывода на французском. QA-тестирование должно быть параллельным.
Операционное измерение проблемы
Техническое качество не поможет, если у компании страдает организационный дизайн.
Кто проверяет ответы нейросети? Если команда QA, следящая за безопасностью диалогов, состоит только из англоговорящих специалистов, "французская" ветка алгоритма со временем будет деградировать или выдавать искаженные культурные нарративы про англо-канадцев просто потому, что некому за ней присматривать.
Как выглядит истинно канадский ИИ
Организации, которые хотят выжить под натиском закона, принимают другие решения:
- Они сразу выбирают те модели LLM (LLAMA-3, Cohere, Mistral), которые имеют доказанную практику с Квебекским французским языком.
- Они требуют от поставщика симметричных отчетов тестирования качества (на оба языка) перед каждым запуском нового кода.
- Они с первого дня вводят в состав проектной группы как минимум одного носителя языка с правом "вето" на запуск.
Федеральный сектор Канады не может себе позволить относиться к французскому языку как к досадной необходимости, решаемой галочкой в меню. Вендоры, говорящие обратное, говорят вам исключительно то, что вы хотите от них услышать, чтобы продать свой софт.