Ученые определили границы сжатия информации для языковых моделей

09.06.2025

Ученые из Института AIRI, МФТИ и Лондонского математического института (LIMS) провели исследование пределов вместимости современных языковых моделей – какой объем информации они способны эффективно хранить и обрабатывать внутри себя. В этой работе сжатие текста служит инструментом для измерения их предельной емкости; полученные результаты закладывают основу для значительного повышения эффективности обработки данных в самых разных областях. Исследование подтвердило, что текст длиной в 1500 слов или токенов можно сжать в один вектор, то есть в набор чисел, который языковая модель понимает и может использовать для восстановления исходного содержания.

Когда текст поступает в языковую модель, он разбивается на токены - слова или их части, каждому из которых соответствует вектор - последовательность из тысяч чисел. Обычно текст из 1500 слов может быть трансформирован в 1500 векторов, что требует значительных вычислительных ресурсов как для их хранения так и обработки. Ученые показали, что всю эту информацию можно уместить в один-единственный вектор, сохраняя исходный текст. Например, книга "Хоббит или Туда и обратно" объемом около 120 тысяч токенов может быть представлена всего в 100–200 векторах, в зависимости от размера модели.

С практической точки зрения сокращение длины входных данных для языковых моделей позволяет значительно уменьшить вычислительные затраты. Чем длиннее текст на входе, тем больше ресурсов требуется для его обработки. Замена длинного контекста на один или несколько векторов позволит ускорить работу моделей и снизить расходы. Исследователи подчеркивают, что их работа показывает верхние пределы — на практике текущее сжатие другими методами достигает коэффициента 10–100, а не 1500.

Одна из ключевых проблем в сжатии данных — не только компактное представление текста, но и обеспечение работы языковой модели с этим сжатым вектором так же, как с исходным текстом. Важную роль здесь играет понятие энтропии, которое можно понимать как меру сложности или "удивительности" текста для модели. Чем более предсказуем текст, тем ниже энтропия и тем проще его сжать. Напротив, случайный набор слов с высокой энтропией сжимать сложнее. Это схоже с тем, как человек пересказывает знакомый текст и с большим трудом может запомнить бессмысленный набор символов.

Еще один аспект исследования — разрыв между теоретической емкостью векторов и их практическим использованием. Теоретически вектор, как набор чисел, может хранить огромный объем информации в битах. Однако языковая модель работает не с любыми векторами, а только с теми, которые она "понимает". Это ограничение приводит к тому, что на практике используется лишь 10–30% потенциальной емкости векторов. Ученые отмечают, что такая избыточность может быть полезной для исправления ошибок в кодировании, но также указывает на недостаточное использование пространства данных.

Методы оптимизации, примененные в исследовании, основаны на градиентном спуске — математическом подходе, который позволяет подобрать параметры вектора для точного восстановления текста. Этот процесс требует нескольких шагов и пока остается дорогостоящим. Исследователи подчеркивают, что их цель — показать достижимые пределы сжатия, а не предложить готовое решение. Они ставят перед научным сообществом задачу разработать методы, которые позволяют сжимать тексты в один вектор за один шаг.

"Удивительно, что один небольшой вектор способен управлять поведением огромной языковой модели с миллиардами параметров. Мы задаем с помощью него поведение системы на тысячи слов вперед, и она строго ему следует. Это открывает широкие перспективы для создания более эффективных и мощных технологий обработки текстов", — отметил Юрий Куратов, руководитель группы "Модели с памятью" лаборатории когнитивных систем искусственного интеллекта Института AIRI.

Новости из связанных рубрик

Искусственный интеллект и сквозные технологии

Онлайн-встречи похудели вдвое. Спасибо ИИ

В 2025 г. пользователи стали проводить на онлайн-встречах в среднем в два раза меньше времени в день по сравнению с предыдущим годом. Теперь они тратят около двух часов на встречи ежедневно. Это изменение может быть связано с активным использованием ...

Искусственный интеллект Яндекс Маркета распознает подозрительные заказы в ПВЗ

Яндекс Маркет начал использовать искусственный интеллект, чтобы выявлять подозрительные заказы, оформленные с постоплатой. Решение позволит предотвратить мошеннические схемы, когда в пункт выдачи (ПВЗ) заказывают товары с оплатой ...

Ученые определили границы сжатия информации для языковых моделей

Новости из связанных рубрик

Искусственный интеллект и сквозные технологии

Онлайн-встречи похудели вдвое. Спасибо ИИ

Искусственный интеллект Яндекс Маркета распознает подозрительные заказы в ПВЗ

Опять двойка. Правоохранительные органы открыли 222 уголовных дела на дропперов

Онлайн-встречи похудели вдвое. Спасибо ИИ

Отечественные серверы обрели популярность в промышленных регионах

АРТ-группировки ополчились на госсектор и промышленность

"Раском" запустил новую высокоскоростную DWDM-магистраль Москва-Минск-Варшава-Франкфурт

Компания StormWall запустила новую точку фильтрации в Санкт-Петербурге

"Нацпроектстрой" цифровизировал управление железнодорожным полигоном "Курскагротерминала"

Россия нацелилась на создание национальной морской системы связи при бедствии

Майнинга меньше не стало, а спрос на электроэнергию вырос

Австралийский контроль в России не появится

"ЕВРАЗ ЗСМК" внедрил интегрированное планирование продаж и производства

"Гравитон" и "Интегра-С" развернули систему видеоаналитики для федеральных трасс по заказу "Автодора"

НБИ помогло повысить прозрачность бизнес-процессов в "Росэнергоатоме"

Партнерский статус с BPMSoft позволит "Газпромнефть-ЦР" выводить экспертизу на внешний рынок

ЛСР цифровизирует жизнь в новостройках

МегаФон ПроБизнес укрепляется на рынке M2M

Осторожно, цифруны! Как при внедрении ИИ не повторить ошибок цифровой трансформации прошлого 10-летия

Российский рынок систем process mining в 2026 г. превысит 2 млрд руб.

Правительство реализовало план по запуску всех 70 федеральных и 425 региональных жизненных ситуаций

Около 31% российских компаний не имеют стратегии внедрения информационной безопасности

За три года маркетплейсы заблокировали по жалобам правообладателей 13,3 млн карточек товаров

Сергей Журавель назначен директором направления "Телеком" компании VPG LaserONE