© ComNews
24.10.2025

Учёные Центра практического искусственного интеллекта Сбера значительно повысили точность определения эмоций на фото и видео с помощью искусственного интеллекта. Их исследования открывают новые возможности для анализа сложных человеческих эмоций в реальных условиях.

В статье "Распознавание составных эмоций лиц на видео с помощью сглаживания предсказаний эффективных многозадачных нейронных сетей" (Smoothing Predictions of Multi-Task EmotiNet Models for Compound Facial Expression Recognition) решается задача распознавания составных эмоций. В жизни люди редко проявляют только одну базовую эмоцию. Чаще мы испытываем смешанные состояния — например, "радостно удивлённый" или "печально испуганный". Именно такие нюансы улавливает новый алгоритм. Он использует легковесные нейросетевые модели, такие как MT-EmotiMobileFaceNet, для извлечения эмоциональных признаков. Затем специальная постобработка сглаживает предсказания с помощью усреднения или гауссовских фильтров. Этот подход резко повышает точность, конкурируя с более сложными и ресурсоёмкими методами.

Метод сглаживания предсказаний улучшил F1-меру классификации составных эмоций на 4,5 процентных пункта. Это позволило работе занять 2-е место в престижном конкурсе Compound Expression Recognition в рамках ABAW-7 на конференции ECCV. Ключевое преимущество — точное распознавание без дообучения модели на новых данных с составными эмоциями, что раньше было серьёзным препятствием для практического применения.

Второе исследование "Анализ эмоций на фото и видео с использованием эффективных многозадачных нейросетевых моделей" (Multi-Task Affective Behaviour Analysis based on MT-EmotiNet Models) посвящено созданию лёгких моделей для одновременного решения нескольких задач. Они распознают выражения лица, знак (valence) и интенсивность (arousal) его эмоций, а также 12 кодов лицевых движений из классификации П. Экмана. Новая технология работает прямо на мобильных устройствах, не отправляя видео лиц в облако, что экономит вычислительные ресурсы и повышает уровень безопасности персональных данных.

Учёные разработали серию легковесных нейросетей, включая MT-EmotiDDAMFNet и MT-EmotiEffNet. Объединение признаков от двух лучших архитектур позволило значительно улучшить результаты базового решения конкурса ABAW-7. Точность распознавания выражений лица выросла на 7 процентных пунктов, а качество предсказания знака и интенсивности эмоций — в 1,25 раза. Суммарная метрика качества для трёх задач конкурса увеличилась в 4,5 раза. Это достижение принесло команде ученых Сбера серебряную медаль конкурса Multi-Task Learning Challenge.

Предложенные подходы демонстрируют, что эффективные легковесные модели с грамотной постобработкой могут успешно конкурировать с громоздкими ансамблями сложных нейросетей. Все модели и исходный код доступны в открытой библиотеке EmotiEffLib, что позволяет другим исследователям развивать это направление. Польза этих разработок многослойна. Для бизнеса их применение может привести к революции в цифровом маркетинге и анализе пользовательского опыта. Компании смогут точно оценивать эмоциональную реакцию на контент или продукты. Производители смартфонов и умных устройств смогут разработать более чуткие системы взаимодействия с пользователем. Автопроизводители смогут создать более надёжные системы мониторинга состояния водителя. Для общества преимущества не менее значимы. Технология улучшает взаимодействие человека и компьютера, делая его более естественным и эмпатичным. Появляется возможность создания доступных диагностических инструментов в психологии и психиатрии для раннего выявления эмоциональных расстройств. Во всех этих случаях предложенный подход может применяться для того, чтобы сделать анализ сложных эмоций точным, доступным и безопасным.