Российские ученые представили новую модель внешней памяти для роботов на основе ИИ
На конференции ICLR 2026 в Бразилии ученые Института AIRI представили Elmur - новую архитектуру системы управления для роботов и других агентов, которым нужно принимать решения, опираясь на события из далекого прошлого. Это особенно важно для развития робототехники: робот часто видит важную информацию задолго до того, как ее необходимо использовать. Если система не умеет надежно хранить и вовремя извлекать данные, ей трудно действовать в сложной и меняющейся среде.
Обычные трансформеры, на которых строятся многие ИИ-системы, решают эту задачу не полностью. Одни модели становятся слишком дорогими по вычислениям, если пытаться заставить их помнить больше. Другие умеют сжимать прошлый опыт, но при этом плохо контролируют, что именно забывается. Есть и такие методы, где память добавляется как отдельный внешний блок фиксированного размера, но в этом случае системе сложнее учитывать влияние очень давних событий на текущее решение. Elmur позволяет модели взаимодействовать с памятью напрямую и использовать нужные сведения без резкого роста вычислительной нагрузки.
В Elmur каждый слой содержит фиксированное количество слотов памяти, которые параллельно взаимодействуют с основным потоком данных. Система может читать информацию из этих ячеек, когда принимает решение, и записывать туда новые данные. Если память начинает заполняться, обновляются те ячейки, которые использовались реже всего, по принципу LRU (Least Recently Used). Это дает ИИ компактное, но устойчивое хранилище, которое может удерживать важную информацию на протяжении 100 тыс. шагов за пределами обычного окна внимания.
Результаты тестов показали высокую эффективность подхода. В синтетическом тесте T-Maze модель смогла со 100-процентной точностью удерживать информацию на протяжении одного миллиона шагов. На специальном бенчмарке оценки памяти роботов MIKASA-Robo архитектура почти вдвое улучшила базовые показатели и заняла первое место в 21 из 23 задач. Кроме того, модель показала, что способна использовать знания на последовательностях, которые на порядки длиннее тех, на которых ее изначально обучали.
Разработка будет полезна прежде всего в робототехнике и системах управления, где ИИ-агент получает только ограниченные визуальные сигналы и должен принимать решения в условиях неполной информации. Следующим шагом исследователи планируют расширить этот подход на Visual Language Action (VLA) модели.
"Elmur - это модель, у которой есть встроенная память. Ключевая ценность разработки для научного сообщества - интеграция явной памяти с политикой записи непосредственно в каждый слой сети. Это простой и масштабируемый фреймворк для управления памятью в агентах без квадратичного роста вычислений", - отметил Егор Черепанов, научный сотрудник группы "Воплощенные агенты" лаборатории Когнитивных систем ИИ Института AIRI.
