Российские исследователи разработали метод быстрой адаптации чат-ботов и голосовых помощников к новым сценариям
Исследователи из MWS AI (входит в МТС Web Services), Университета ИТМО и Международного университета информационных технологий (IITU) представили метод для повышения точности отслеживания состояния диалога в чат-ботах и голосовых помощниках. Этот механизм позволяет системе на каждом шаге разговора лучше понимать, что именно хочет пользователь. Работа вошла в программу EACL 2026 - одной из крупнейших международных конференций в области обработки текстов (NLP), которая проходит в Рабате (Марокко) с 24 по 29 марта 2026 г.
Состояние диалога - память системы о запросе пользователя. Если в ходе общения она теряет или неверно интерпретирует хотя бы один параметр, дальнейший диалог начинает строиться на ошибочных данных. В результате пользователь получает нерелевантный ответ, а качество всего взаимодействия заметно снижается.
Исследование направлено на решение одной из ключевых проблем современных диалоговых систем - адаптацию к новым доменам. Например, если модель уже умеет помогать с бронированием отелей, важно, чтобы ее можно было быстро перенастроить на другие сценарии без необходимости каждый раз собирать тысячи размеченных диалогов.
Существующие подходы к этой задаче обычно зависят либо от больших массивов данных, либо от проприетарных моделей. Как правило, обучение строится на примерах правильных ответов: модели показывают нужный результат и учат его воспроизводить. Такой подход работает, но хуже переносится на новые сценарии и требует значительных затрат времени и ресурсов.
Авторы исследования предложили изменить сам принцип обучения. Вместо того чтобы показывать модели правильные ответы и учить их воспроизводить, ей дают возможность самой исследовать разные варианты решения и получать награду за точный результат. Для этого используется метод обучения с подкреплением GRPO, который не требует тяжелых дополнительных компонентов и может быть реализован в сравнительно доступном вычислительном контуре.
Эксперименты показали устойчивый прирост качества на моделях разного масштаба - от 1,5 до 32 млрд параметров. Один из самых показательных результатов связан с моделью на 8 млрд параметров: после обучения с использованием GRPO она превзошла не только GPT-4, но и модель в четыре раза крупнее, обученную классическим способом. При этом обучение проходило на данных из других доменов, а модель тестировали на новых для нее сценариях.
По метрике точности отслеживания диалога модель на 8 млрд параметров, обученная новым методом, показала результат 41,9%, тогда как у GPT-4 этот показатель составил 38,7%, а у модели на 32 млрд параметров с классическим дообучением - 39,9%. То есть модель среднего размера продемонстрировала результат более чем на 3% выше, чем GPT-4, и на 2% выше, чем система в четыре раза ее крупнее.
"Важно, что GRPO дает заметный эффект даже при небольшом объеме обучающих данных, тем самым снижая барьер входа при адаптации системы к новому сценарию. Если говорить о практической пользе, то он будет полезен в клиентской поддержке, голосовых ассистентах, системах бронирования и внутренних корпоративных ботах. Наибольший эффект подход даст там, где важно удерживать контекст диалога", - отметил инженер-исследователь MWS AI Тимур Ионов.
Весь процесс обучения и инференса укладывается на одну GPU. Код выложен в .
