Российские исследователи разработали метод быстрой адаптации чат-ботов и голосовых помощников к новым сценариям

26.03.2026

Исследователи из MWS AI (входит в МТС Web Services), Университета ИТМО и Международного университета информационных технологий (IITU) представили метод для повышения точности отслеживания состояния диалога в чат-ботах и голосовых помощниках. Этот механизм позволяет системе на каждом шаге разговора лучше понимать, что именно хочет пользователь. Работа вошла в программу EACL 2026 - одной из крупнейших международных конференций в области обработки текстов (NLP), которая проходит в Рабате (Марокко) с 24 по 29 марта 2026 г.

Состояние диалога - память системы о запросе пользователя. Если в ходе общения она теряет или неверно интерпретирует хотя бы один параметр, дальнейший диалог начинает строиться на ошибочных данных. В результате пользователь получает нерелевантный ответ, а качество всего взаимодействия заметно снижается.

Исследование направлено на решение одной из ключевых проблем современных диалоговых систем - адаптацию к новым доменам. Например, если модель уже умеет помогать с бронированием отелей, важно, чтобы ее можно было быстро перенастроить на другие сценарии без необходимости каждый раз собирать тысячи размеченных диалогов.

Существующие подходы к этой задаче обычно зависят либо от больших массивов данных, либо от проприетарных моделей. Как правило, обучение строится на примерах правильных ответов: модели показывают нужный результат и учат его воспроизводить. Такой подход работает, но хуже переносится на новые сценарии и требует значительных затрат времени и ресурсов.

Авторы исследования предложили изменить сам принцип обучения. Вместо того чтобы показывать модели правильные ответы и учить их воспроизводить, ей дают возможность самой исследовать разные варианты решения и получать награду за точный результат. Для этого используется метод обучения с подкреплением GRPO, который не требует тяжелых дополнительных компонентов и может быть реализован в сравнительно доступном вычислительном контуре.

Эксперименты показали устойчивый прирост качества на моделях разного масштаба - от 1,5 до 32 млрд параметров. Один из самых показательных результатов связан с моделью на 8 млрд параметров: после обучения с использованием GRPO она превзошла не только GPT-4, но и модель в четыре раза крупнее, обученную классическим способом. При этом обучение проходило на данных из других доменов, а модель тестировали на новых для нее сценариях.

По метрике точности отслеживания диалога модель на 8 млрд параметров, обученная новым методом, показала результат 41,9%, тогда как у GPT-4 этот показатель составил 38,7%, а у модели на 32 млрд параметров с классическим дообучением - 39,9%. То есть модель среднего размера продемонстрировала результат более чем на 3% выше, чем GPT-4, и на 2% выше, чем система в четыре раза ее крупнее.

"Важно, что GRPO дает заметный эффект даже при небольшом объеме обучающих данных, тем самым снижая барьер входа при адаптации системы к новому сценарию. Если говорить о практической пользе, то он будет полезен в клиентской поддержке, голосовых ассистентах, системах бронирования и внутренних корпоративных ботах. Наибольший эффект подход даст там, где важно удерживать контекст диалога", - отметил инженер-исследователь MWS AI Тимур Ионов.

Весь процесс обучения и инференса укладывается на одну GPU. Код выложен в открытый доступ.

Российские исследователи разработали метод быстрой адаптации чат-ботов и голосовых помощников к новым сценариям

Новости из связанных рубрик

Искусственный интеллект и сквозные технологии

АНО "Цифровая экономика" займется формированием мер поддержки ИИ

ВС России активно внедряют элементы ИИ и робототехнику, заявил Белоусов

РФ

МТС реализовала комплексный проект мониторинга природных пожаров в Приангарье

В Хабаровском крае переведут в цифру проверки бизнеса

Сбербанк разместит облигации на 56 млрд руб.

Selectel разместит облигации на 5 млрд руб. для рефинансирования и инвестиций

АСТО пересчитала долю региональных операторов связи

ЦБ введет тарифы на зарплатные переводы в цифровых рублях

Внедрение AI-ассистента в "Росагролизинге" позволит сократить работу с документами до 50%

"Русал" повысил гибкость управления корпоративными ресурсами с помощью облака Cloud X

"РСХБ-Страхование" повысило зрелость системы управления информационной безопасностью

ЦУМ установит платёжные терминалы Сбера с искусственным интеллектом

"ЕвроХим" выведет на рынок российскую альтернативу зарубежным системам технологического моделирования

Протоимпортозамещение. Как был создан первый российский кнопочный телефон с ЖК индикатором и громкой связью

Anthropic только для избранных. Как запрет на использование новых моделей ИИ скажется на России

IVA Technologies и Центр судебной экспертизы объединят усилия для разработки стандартов выявления дипфейков в ВКС

Napoleon IT снизил стоимость и сроки производства софта на 40%

АНО "Цифровая экономика" займется формированием мер поддержки ИИ

Александр Панченко назначен директором по развитию онлайн-кинотеатра "Кион"

Внедрение ИИ-ассистента в "Росагролизинге" позволит сократить работу с документами до 50%