Российские ученые разработали новый тест для проверки рассуждений ИИ в длинном мультимодальном контексте
Ученые Института AIRI разработали MMReD - новый бенчмарк для оценки того, насколько хорошо LLM умеют рассуждать в длинном контексте. В отличие от многих существующих тестов, MMReD проверяет не просто способность найти один факт среди большого объема данных, а умение анализировать весь контекст, сопоставлять события и делать выводы на основе нескольких взаимосвязанных суждений. Такой тип оценки особенно важен для применения искусственного интеллекта (ИИ) в медицине, юриспруденции и финансах. Работа представлена на ICLR 2026 в Бразилии.
Бенчмарк моделирует среду, в которой пять персонажей перемещаются между шестью комнатами. На каждом шаге один из них переходит в другую комнату, после чего фиксируется полное состояние системы. Получившаяся последовательность наблюдений подается модели. Это позволяет сравнивать рассуждение в разных модальностях. Чтобы проверить, как качество работы меняется с ростом объема данных, исследователи подготовили по 1200 уникальных последовательностей для каждой из восьми длин контекста - от 1 до 128 наблюдений.
Ученые также разработали 24 типа вопросов и разделили их на две группы. Первая включает задачи, где нужно найти конкретный факт. Вторая - те, в которых для составления правильного ответа необходимо проанализировать весь контекст. Распределение ответов было сбалансировано таким образом, чтобы модель не могла опираться на данные, полученные в ходе обучения, анализировала только входную информацию.
В ходе работы было протестировано 12 моделей, включая GPT-4o, Qwen2.5-VL-72B, DeepSeek-R1, VideoLLaMA3 и LLaVA-Video-72B. У всех с ростом длины контекста качество ответов заметно падало. На части сложных задач при длине 128 шагов даже лучшие модели отвечали некорректно.
"Мы увидели не просто "ухудшение качества" на длинных контекстах, а коллапс рассуждения. На ряде задач при N=128 даже ведущие reasoning-ориентированные модели проседают до уровня случайного угадывания ответа. В 2024 мы проводили тест на бенчмарке BABILong. Тогда результаты показали, что популярные LLM эффективно используют лишь 10-20% информации. Сегодня MMReD фиксирует тот же результат. Важно, что это не частный дефект одной архитектуры: у всех LLM проявляется практически одинаковая кривая падения по мере роста длины контекста. Это указывает на системную природу проблемы", - отметил Максим Куркин, научный сотрудник группы мультимодального ИИ лаборатории FusionBrain Института AIRI
Для серьезного прогресса в анализе плотного длинного контекста потребуются не точечные улучшения, а глубокие изменения в устройстве моделей. В качестве возможных решений проблемы авторы исследования рассматривают системы с рекуррентной памятью и более устойчивыми механизмами хранения информации, включая RMT, ARMT и Titans.
