Институт AIRI разработал новый метод повышения надежности генерации запросов для работы с данными
Ученые из Института AIRI усовершенствовали работу языковых моделей для генерации SQL-запросов, создав систему, которая помогает точнее создавать запросы к базам данных c помощью больших языковых моделей, а также оценивать уверенность в корректности результата.
Разработка напрямую связана с фундаментальной задачей машинного обучения — генерализацией, то есть способностью модели корректно работать с новыми, ранее не встречавшимися данными. Современные языковые модели, такие как ChatGPT или GigaChat, достигают высокой генерализации за счет внушительного объема данных и параметров, на которых они обучаются. Например, модели размером 175 миллиардов параметров обучаются на примерно 15 ТБ текста. Однако даже они сталкиваются с ограничениями генерализации, особенно в специализированных сферах, где критична точность.
В ходе исследования ученые тестировали модель на задаче генерации SQL-запросов для сотрудников больницы к их внутренней базе данных. Это необходимо врачам, чтобы, в числе прочего, оперативно отслеживать занятость отделений, контролировать процесс сдачи анализов, без необходимости ручного анализа внутренних баз данных.
Основная сложность заключалась в специфике формулировок запросов: многие из них касались диагнозов и заболеваний. Крупные языковые модели, несмотря на свою универсальность, часто теряют точность в узкоспециализированных темах, что приводит к ошибкам в генерации SQL. Специалисты обучили модель таким образом, что она выдавала 60–70% правильных генераций. Это означает, что примерно 30% генераций запросов содержали ошибки.
Чтобы нетехнические специалисты могли доверять такой модели, были разработаны две техники – внешний классификатор и оценка калиброванности. Внешний классификатор работает как автоматический фильтр, принимая решение о выдаче запроса пользователю на основе оценки уверенности модели. Для оценки уверенности моделей в своих решениях исследователи применили энтропийные методы, анализирующие распределение вероятностей выходных данных. Они не требуют значительных вычислительных ресурсов, что делает их удобными для интеграции в реальные системы. В задаче генерации SQL-запросов энтропийная оценка позволяет определять, насколько можно доверять сгенерированному запросу, снижая риск ошибок в критически важных процессах, таких как анализ медицинских данных или управление бизнес-аналитикой. Калиброванность оценки уверенности показывает, насколько уверенность модели соответствует ее реальному качеству при данном показателе уверенности. Благодаря методам калибровки и внешнему классификатору 90% ошибок из 30% некорректных генераций языковой модели были успешно выявлены.
В исследовании были протестированы несколько архитектур языковых моделей, включая архитектуры типа кодировщик-декодировщик, где входной текст сначала кодируется в промежуточное состояние, а затем декодируется в итоговый ответ. Именно такая архитектура показала лучшую калиброванность исходных энтропийных оценок уверенности.
"Мы сделали вывод, что ИИ-модели часто ошибаются в SQL генерации, но делают это уверенно, а вот когда вопрос не имеет ответа – колеблются. Поэтому внешний классификатор в качестве фильтра надежнее определяет именно такие 'неотвечаемые' вопросы. Используя это знание о модели и разработанную методику, мы смогли выявлять 90% ошибок, что напрямую повышает итоговую достоверность системы", — Елена Тутубалина, руководитель научной группы "Прикладное NLP" Института AIRI, старший научный сотрудник ИСП РАН
"Комбинация методов калибровки и использование внешних классификаторов радикально повышает надежность языковых ИИ для генерации кода под конкретные задачи. Это критически важно для областей, где цена ошибки высока, а использование ИИ-инструментов должно оставаться полностью подконтрольным специалисту", — отметил Олег Сомов, научный сотрудник группы "Прикладное NLP" Института AIRI.
