Российские ученые разработали новый тест для проверки рассуждений ИИ в длинном мультимодальном контексте

07.05.2026

Ученые Института AIRI разработали MMReD - новый бенчмарк для оценки того, насколько хорошо LLM умеют рассуждать в длинном контексте. В отличие от многих существующих тестов, MMReD проверяет не просто способность найти один факт среди большого объема данных, а умение анализировать весь контекст, сопоставлять события и делать выводы на основе нескольких взаимосвязанных суждений. Такой тип оценки особенно важен для применения искусственного интеллекта (ИИ) в медицине, юриспруденции и финансах. Работа представлена на ICLR 2026 в Бразилии.

Бенчмарк моделирует среду, в которой пять персонажей перемещаются между шестью комнатами. На каждом шаге один из них переходит в другую комнату, после чего фиксируется полное состояние системы. Получившаяся последовательность наблюдений подается модели. Это позволяет сравнивать рассуждение в разных модальностях. Чтобы проверить, как качество работы меняется с ростом объема данных, исследователи подготовили по 1200 уникальных последовательностей для каждой из восьми длин контекста - от 1 до 128 наблюдений.

Ученые также разработали 24 типа вопросов и разделили их на две группы. Первая включает задачи, где нужно найти конкретный факт. Вторая - те, в которых для составления правильного ответа необходимо проанализировать весь контекст. Распределение ответов было сбалансировано таким образом, чтобы модель не могла опираться на данные, полученные в ходе обучения, анализировала только входную информацию.

В ходе работы было протестировано 12 моделей, включая GPT-4o, Qwen2.5-VL-72B, DeepSeek-R1, VideoLLaMA3 и LLaVA-Video-72B. У всех с ростом длины контекста качество ответов заметно падало. На части сложных задач при длине 128 шагов даже лучшие модели отвечали некорректно.

"Мы увидели не просто "ухудшение качества" на длинных контекстах, а коллапс рассуждения. На ряде задач при N=128 даже ведущие reasoning-ориентированные модели проседают до уровня случайного угадывания ответа. В 2024 мы проводили тест на бенчмарке BABILong. Тогда результаты показали, что популярные LLM эффективно используют лишь 10-20% информации. Сегодня MMReD фиксирует тот же результат. Важно, что это не частный дефект одной архитектуры: у всех LLM проявляется практически одинаковая кривая падения по мере роста длины контекста. Это указывает на системную природу проблемы", - отметил Максим Куркин, научный сотрудник группы мультимодального ИИ лаборатории FusionBrain Института AIRI

Для серьезного прогресса в анализе плотного длинного контекста потребуются не точечные улучшения, а глубокие изменения в устройстве моделей. В качестве возможных решений проблемы авторы исследования рассматривают системы с рекуррентной памятью и более устойчивыми механизмами хранения информации, включая RMT, ARMT и Titans.

Российские ученые разработали новый тест для проверки рассуждений ИИ в длинном мультимодальном контексте

Новости из связанных рубрик

Искусственный интеллект и сквозные технологии

ЕАЭС уже использует общие цифровые стандарты в самых разных сферах

Чуть больше четверти руководителей российских компаний знают, как внедрить ИИ в процессы

От запретов к компромиссам. ИТ-комитет Госдумы ввел смягчительные поправки к "Антифроду 2.0"

Решение для мультивариантного анализа принесло "Сибуру" 900 млн руб. экономического эффекта за два года

Чуть больше четверти руководителей российских компаний знают, как внедрить ИИ в процессы

Квантовая защита пришла в российский финансовый сектор

Лери Губкин назначен генеральным директором АО "Компания ТрансТелеКом"

Минцифры допустило новые льготы за проекты по замене зарубежного софта

Замена поколений: 5G в России могут запустить уже летом

ЕАЭС уже использует общие цифровые стандарты в самых разных сферах

Правительство Кировской области привлечет ИИ к решению проблем граждан

В Красноярском крае упростят использование агродронов

ЕВРАЗ ЗСМК внедрил цифровой подсказчик для оптимизации расхода порошковой проволоки при выплавке стали

Урологи Сеченовского Университета будут применять дополненную реальность для планирования операций

Качество готовой еды в X5 проконтролирует ИИ

CorpSoft24 перевел вагоноремонтные предприятия группы НВРК на "1С: ERP"

ВТИ создал ремонтопригодный дрон для энергетиков

Криптозащита от "МегаФон ПроБизнес": когда защищённый канал связи становится не опцией, а необходимостью

Почему Kubernetes Secrets недостаточно для enterprise: как крупные компании перестраивают управление сертификатами и секретами

Глобальное искажение смысла (ГИС): как прекратить вакханалию с созданием новых госинформсистем

ФАС интегрирует ГИС "Антикартель" с системами других госорганов

Почти каждый третий ребенок сталкивался с приглашением к противоправным действиям в интернете

Облачная АТС от "билайн бизнес" показала самый высокий темп роста на рынке в 2025 году

Россияне стали больше времени проводить в телефоне

Совет директоров "Ростелекома" дал рекомендации по дивидендам за 2025 г.