Российские исследователи научили языковые модели понимать сложные трехмерные сцены

04.08.2025

Команда Института AIRI и Центра когнитивного моделирования МФТИ представила 3DGraphLLM - метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством. Научная работа принята к публикации на одной из ведущих конференций в области компьютерного зрения - ICCV, а сама нейросетевая модель уже тестировалась на данных, собранных в Центре робототехники Сбера.

В отличие от прежних решений, 3DGraphLLM позволяет учитывать пространственные и семантические связи между элементами сцены - от расположения до относительных размеров и контекста использования. Это особенно важно при анализе насыщенных бытовых пространств, таких как кухня, мастерская или офисное помещение, где десятки объектов тесно связаны друг с другом.

Модель обучалась на данных из наиболее известных и больших датасетов ScanNet, 3RScan, которые содержат точные реконструкции реальных помещений, и расширенных датасетов вроде ScanRefer и Multi3DRefer, содержащих текстовые запросы к реконструированным сценам. В качестве языковых моделей использовались Vicuna-v1.5 и LLAMA3 соответственно с 7 и 8 млрд параметров - относительно компактные, чтобы запускаться на энергоэффективных компьютерах с графическим процессорами (например, Nvidia Jetson AGX Orin), которые обычно встраиваются в робототехнические платформы.

Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM (точность выше более чем на 10%). Для сравнения выбраны 11 методов, среди которых 3D-VisTA, PQ3D, ViL3DRel.

Среди 12 современных подходов на основе больших языковых моделей 3DGraphLLM занял лидирующую позицию. Предложенная идея использования графа 3D-сцены позволила более чем на 7% улучшить точность распознавания объектов по текстовому описанию по сравнению с базовым методом Chat-Scene на общепризнанных бенчмарках ScanRefer и Multi3DRefer. Кроме того, 3DGraphLLM достигает такого же уровня качества, как SOTA-метод GPT4Scene, обрабатывая запрос пользователя в 2-4 раза быстрее и используя в 10 раз меньшее количество входных токенов за счет сжатия графа сцены.

"Сейчас мы работаем над интеграцией метода в реальные робототехнические платформы. Важно, чтобы робот не просто распознавал окружающие предметы, но и понимал, как объекты соотносятся друг с другом и с задачами пользователя. Такие навыки критичны для сервисных, образовательных и бытовых роботов следующего поколения", - отметил Дмитрий Юдин, кандидат технических наук, ведущий научный сотрудник лаборатории когнитивных систем искусственного интеллекта AIRI, заведующий Лабораторией интеллектуального транспорта Центра когнитивного моделирования МФТИ.

Российские исследователи научили языковые модели понимать сложные трехмерные сцены

Новости из связанных рубрик

Искусственный интеллект и сквозные технологии

Генеративный искусственный интеллект проникнет в более чем 90% компаний

Исследователи научили классические рекомендательные алгоритмы учитывать будущие интересы пользователей

Новые старые правила игры. ЦБ разработал требования к цифровым депозитариям

ИИ на работе. Когда помощник становится врагом

ФАС сказала "надо" - маркетплейсы сделали. Но с оговорками

Генеративный искусственный интеллект проникнет в более чем 90% компаний

"Эвалар" запустил ИИ-ассистента для подбора БАД

1С-КСУ и CorpSoft24 переводят "Росморпорт" на отечественную систему управления ресурсами

"Полюс" перешел на отечественное ПО для ускорения работы с данными

ИИ-ассистент "МТС Линк" составит список задач по итогам встречи

ДОМ.РФ запустил единую базу знаний для цифрового развития жилищной сферы

Клиентский диалог как источник управленческих решений

Когда цифровой контроль сотрудников приводит к потере производительности

Исследователи научили классические рекомендательные алгоритмы учитывать будущие интересы пользователей

Иностранные издатели утроили рекламные бюджеты в RuStore

МТС запустила решение для бизнеса по переходу на почасовой учет электроэнергии

Т2 обеспечил ковровое покрытие LTE2300 и увеличил скорости в среднем на 25% в регионах

Зараженные вложения и фишинг: Ближний Восток столкнулся с рекордным числом атак на промышленные системы