Российские исследователи научились снижать стоимость сбора и разметки данных для ИИ в три раза
Российская команда разработчиков из R&D-центра "Т-Технологий", AIRI, Высшей школы экономики, университета "Иннополис" и Центра практического искусственного интеллекта Сбера создали ATGen - первый комплексный фреймворк, который существенно упрощает и удешевляет обучение больших языковых моделей для задач генерации текста. Новый инструмент перестраивает подход к обучению ИИ, делая его доступным малым командам и компаниям без больших бюджетов.
Научная работа была представлена на 63 ежегодной встрече Ассоциации вычислительной лингвистики ACL 2025 в Вене, крупнейшей отраслевой конференции уровня А*.
Одна из главных проблем при создании генеративных ИИ-решений для специфических областей, например, анализа юридических документов, — это необходимость большого количества качественно и профессионально размеченных данных. Разметка требует либо часов работы дорогих экспертов, например, юристов или врачей, либо серьезных расходов на доступ по API к большим языковым моделям в случае менее специализированных задач.
ATGen использует парадигму активного обучения, при которой сама модель на каждом этапе выбирает, какие новые примеры ей нужны для максимального роста точности. Такой подход, по данным авторов, позволяет сократить объем данных, требующих разметки, в 2–4 раза при сохранении или даже росте качества конечной модели.
Фреймворк поддерживает:
- все последние стратегии AL для задач генерации текстов;
- веб-интерфейс, позволяющий настраивать параметры активного обучения, следить за процессом обучения, а также просматривать метрики и примеры генераций;
- интеграцию с LLM доступными как локально, так и с помощью API;
- OpenAI batch API, который позволяет еще больше сократить расходы на разметку.
Исследователи провели серию экспериментов на четырех популярных задачах генерации: ответы на вопросы (TriviaQA), решение задач (GSM8K), понимание текста (RACE) и суммаризация (AESLC), сравнили разные AL-стратегии со стратегией случайного выбора данных для обучения. Исследователи выяснили, что стратегии HUDS, HADAS, Facility Location значимо превосходят стратегию случайного выбора данных на всех рассмотренных бенчмарках.
Достижение аналогичного уровня качества конечной модели при активном обучении требует размечать лишь 33% от объема, требуемого при случайной выборке, сокращая расходы на сбор данных в три раза.
ATGen впервые объединил современные методы активного обучения, автоматическую разметку с помощью мощных языковых моделей, удобный веб-интерфейс для разметки и продвинутую систему оценки качества - все это для решения задач по генерации естественного языка.
"С одной стороны, такое решение действительно востребовано в РФ. К тому же обучение больших языковых моделей (LLM) требует колоссальных вычислительных ресурсов, что делает его недоступным для большинства компаний, кроме крупнейших (Сбер, Яндекс, МТС и др.) ATGen решает именно эту проблему, открывая окно возможностей для малых команд и бизнесов. В России существует большой пласт компаний, стремящихся использовать преимущества генеративного ИИ (чат-боты, автоматизация контента, аналитика текстов), но испытывающих трудности из-за стоимости и сложности. К тому же упрощение процесса позволит привлечь к разработке ИИ более широкий круг специалистов, не только топовых ML-инженеров с доступом к суперкомпьютерам", - рассказал директор департамента голосовых цифровых технологий ООО "Бэнкс Софт Системс" (BSS) Александр Крушинский.
Фреймворк ATGen доступен на GitHub под лицензией MIT. Этот инструмент подходит командам разработчиков любого масштаба для создания генеративных языковых моделей в различных отраслях — от юриспруденции до медицины или специализированных ассистентов. Главное преимущество — значительное сокращение расходов и ускорение выхода ИИ-продуктов на рынок за счет быстрого получения обучающих данных и разработки кастомизированных моделей.
