Ученые определили границы сжатия информации для языковых моделей
Ученые из Института AIRI, МФТИ и Лондонского математического института (LIMS) провели исследование пределов вместимости современных языковых моделей – какой объем информации они способны эффективно хранить и обрабатывать внутри себя. В этой работе сжатие текста служит инструментом для измерения их предельной емкости; полученные результаты закладывают основу для значительного повышения эффективности обработки данных в самых разных областях. Исследование подтвердило, что текст длиной в 1500 слов или токенов можно сжать в один вектор, то есть в набор чисел, который языковая модель понимает и может использовать для восстановления исходного содержания.
Когда текст поступает в языковую модель, он разбивается на токены - слова или их части, каждому из которых соответствует вектор - последовательность из тысяч чисел. Обычно текст из 1500 слов может быть трансформирован в 1500 векторов, что требует значительных вычислительных ресурсов как для их хранения так и обработки. Ученые показали, что всю эту информацию можно уместить в один-единственный вектор, сохраняя исходный текст. Например, книга "Хоббит или Туда и обратно" объемом около 120 тысяч токенов может быть представлена всего в 100–200 векторах, в зависимости от размера модели.
С практической точки зрения сокращение длины входных данных для языковых моделей позволяет значительно уменьшить вычислительные затраты. Чем длиннее текст на входе, тем больше ресурсов требуется для его обработки. Замена длинного контекста на один или несколько векторов позволит ускорить работу моделей и снизить расходы. Исследователи подчеркивают, что их работа показывает верхние пределы — на практике текущее сжатие другими методами достигает коэффициента 10–100, а не 1500.
Одна из ключевых проблем в сжатии данных — не только компактное представление текста, но и обеспечение работы языковой модели с этим сжатым вектором так же, как с исходным текстом. Важную роль здесь играет понятие энтропии, которое можно понимать как меру сложности или "удивительности" текста для модели. Чем более предсказуем текст, тем ниже энтропия и тем проще его сжать. Напротив, случайный набор слов с высокой энтропией сжимать сложнее. Это схоже с тем, как человек пересказывает знакомый текст и с большим трудом может запомнить бессмысленный набор символов.
Еще один аспект исследования — разрыв между теоретической емкостью векторов и их практическим использованием. Теоретически вектор, как набор чисел, может хранить огромный объем информации в битах. Однако языковая модель работает не с любыми векторами, а только с теми, которые она "понимает". Это ограничение приводит к тому, что на практике используется лишь 10–30% потенциальной емкости векторов. Ученые отмечают, что такая избыточность может быть полезной для исправления ошибок в кодировании, но также указывает на недостаточное использование пространства данных.
Методы оптимизации, примененные в исследовании, основаны на градиентном спуске — математическом подходе, который позволяет подобрать параметры вектора для точного восстановления текста. Этот процесс требует нескольких шагов и пока остается дорогостоящим. Исследователи подчеркивают, что их цель — показать достижимые пределы сжатия, а не предложить готовое решение. Они ставят перед научным сообществом задачу разработать методы, которые позволяют сжимать тексты в один вектор за один шаг.
"Удивительно, что один небольшой вектор способен управлять поведением огромной языковой модели с миллиардами параметров. Мы задаем с помощью него поведение системы на тысячи слов вперед, и она строго ему следует. Это открывает широкие перспективы для создания более эффективных и мощных технологий обработки текстов", — отметил Юрий Куратов, руководитель группы "Модели с памятью" лаборатории когнитивных систем искусственного интеллекта Института AIRI.
