© ComNews
04.08.2025

Команда Института AIRI и Центра когнитивного моделирования МФТИ представила 3DGraphLLM - метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством. Научная работа принята к публикации на одной из ведущих конференций в области компьютерного зрения - ICCV, а сама нейросетевая модель уже тестировалась на данных, собранных в Центре робототехники Сбера.

В отличие от прежних решений, 3DGraphLLM позволяет учитывать пространственные и семантические связи между элементами сцены - от расположения до относительных размеров и контекста использования. Это особенно важно при анализе насыщенных бытовых пространств, таких как кухня, мастерская или офисное помещение, где десятки объектов тесно связаны друг с другом.

Модель обучалась на данных из наиболее известных и больших датасетов ScanNet, 3RScan, которые содержат точные реконструкции реальных помещений, и расширенных датасетов вроде ScanRefer и Multi3DRefer, содержащих текстовые запросы к реконструированным сценам. В качестве языковых моделей использовались Vicuna-v1.5 и LLAMA3 соответственно с 7 и 8 млрд параметров - относительно компактные, чтобы запускаться на энергоэффективных компьютерах с графическим процессорами (например, Nvidia Jetson AGX Orin), которые обычно встраиваются в робототехнические платформы.

Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM (точность выше более чем на 10%). Для сравнения выбраны 11 методов, среди которых 3D-VisTA, PQ3D, ViL3DRel.

Среди 12 современных подходов на основе больших языковых моделей 3DGraphLLM занял лидирующую позицию. Предложенная идея использования графа 3D-сцены позволила более чем на 7% улучшить точность распознавания объектов по текстовому описанию по сравнению с базовым методом Chat-Scene на общепризнанных бенчмарках ScanRefer и Multi3DRefer. Кроме того, 3DGraphLLM достигает такого же уровня качества, как SOTA-метод GPT4Scene, обрабатывая запрос пользователя в 2-4 раза быстрее и используя в 10 раз меньшее количество входных токенов за счет сжатия графа сцены.

"Сейчас мы работаем над интеграцией метода в реальные робототехнические платформы. Важно, чтобы робот не просто распознавал окружающие предметы, но и понимал, как объекты соотносятся друг с другом и с задачами пользователя. Такие навыки критичны для сервисных, образовательных и бытовых роботов следующего поколения", - отметил Дмитрий Юдин, кандидат технических наук, ведущий научный сотрудник лаборатории когнитивных систем искусственного интеллекта AIRI, заведующий Лабораторией интеллектуального транспорта Центра когнитивного моделирования МФТИ.

Новости из связанных рубрик