Иван Котов, продакт-менеджер по видео решениям компании Konica Minolta
Иван
Котов

продакт-менеджер по видео решениям Konica Minolta
© ComNews
13.06.2024

В последние годы, благодаря развитию искусственного интеллекта (ИИ), видеоаналитика стала важным инструментом в различных секторах экономики, полностью преобразующим обработку и анализ видеоданных. Куда направление движется сегодня – рассказывает Иван Котов, продакт-менеджер по видео решениям компании Konica Minolta.

NPU-сдвиг

Ключевыми областями применения видеоаналитики являются промышленность, транспорт, а также финансовый сектор, ритейл и логистика. Все они используют ее для обширного ряда задач: от контроля технологических процессов и действий сотрудников до управления перемещением товаров и соблюдения норм промышленной безопасности.

Среди наиболее значительных технологических обновлений в области ИИ-видеоаналитики последнего времени можно назвать разработку и внедрение нейропроцессоров (NPU), которые предназначены специально для работы с нейросетями.

Это позволило увеличить скорость и точность обработки видеоданных за счет способности NPU обрабатывать десятки тысяч параметров одновременно. Так обеспечивается более глубокий и всесторонний анализ по сравнению с предыдущими поколениями процессоров.

Подобные прорывы не только улучшают существующие возможности видеоаналитики, но и открывают двери к новым, инновационным способам применения ИИ в анализе видеоданных.

Есть все основания полагать, что в ближайшем будущем мы станем свидетелями еще более нестандартных применений нейросетей в этой области за счет неограниченного трансформационного потенциала ИИ применительно к различным отраслевым задачам.

Точность и закон

Современные нейропроцессоры позволяют анализировать изменения каждого из миллионов пикселей в изображении, в отличие от возможностей на предыдущем технологическом цикле, где анализ проводился по секторам. Это значит, что теперь можно детектировать даже минимальные изменения, такие как движение руки или изменение цвета пикселя, с более высокой детализацией, чем когда-либо.

Один из примеров, демонстрирующих преимущества этого подхода, – улучшенное обнаружение дыма или возгорания. Раньше для детектирования дыма необходимо было, чтобы он занимал около 20-30% поля зрения камеры. Анализируемая картинка была разделена, к примеру, на 24 части (сектора) в зависимости от задачи, структуры нейросети и типа применяемого ИИ. Сейчас количество таких секторов, если брать стандартное изображение Full HD, может достигать 2 млн и более – по количеству пикселей. NPU позволяют анализировать состояние каждого пикселя отдельно, и мы можем получать более полную и точную аналитическую картину.

С анализом по пикселям обнаружение отклонений происходит значительно раньше, увеличивая дальность и точность обнаружения инцидентов. Аналогично улучшилось качество выявления брака на производстве, поскольку теперь можно выявлять дефекты размером до 2-3 миллиметров, тогда как ранее порог составлял 5-10 миллиметров.

Однако применение ИИ в видеонаблюдении порождает этические и конфиденциальные вопросы, особенно в контексте персонализации данных и идентификации человека. Распознавание лиц и радужной оболочки глаза вызывает особую озабоченность из-за чувствительности этих данных.

В России проблема рассматривается на государственном уровне. В частности, в декабре 2022 года был принят закон ФЗ-572, который регулирует использование подобных технологий и устанавливает рамки их этического применения.

Разработчики и исследователи ищут пути решения этических дилемм, отходя от прямого распознавания лиц к анализу силуэта или скелетной аналитики. Это позволяет идентифицировать человека по уникальным особенностям походки с вероятностью до 80%, избегая при этом прямой персонализации.

Такие подходы, вместе с международными и национальными меморандумами и регуляциями, должны обеспечить баланс между технологическими инновациями и необходимостью защиты личной конфиденциальности, и этических стандартов.

Требования к людям

ИИ в сфере видеоаналитики стимулирует значительные изменения в требованиях к квалификации специалистов и в профиле востребованных на рынке труда компетенций. Современные разработчики и пользователи систем видеоаналитики сталкиваются с необходимостью глубокого понимания и работы с нейросетями, а также с программно-аппаратными платформами, предоставляющими сложные инструменты для настройки и анализа данных.

Ключевые навыки, которые теперь востребованы в этой области – широта мышления, глубокие знания в логической обработке событий и программировании. Пресейлы и разработчики должны обладать продвинутыми знаниями в real-time операционных системах, преимущественно в Linux, что стало особенно актуально на фоне перехода на импортозамещение в России.

Образование в университетах и специализированные курсы могут предоставить теоретическую базу и базовые практические навыки работы с программным обеспечением и командной строкой. Однако реальная экспертиза требует глубокой практики и способности адаптироваться к часто изменяющимся технологическим требованиям и обновлениям программного обеспечения. Это неизбежно: для того, чтобы стать квалифицированным специалистом в области видеоаналитики и ИИ, необходим симбиоз университетского образования и практического опыта реальных проектов.

Также наблюдается тренд на активное взаимодействие между ИТ-компаниями, разработчиками, пользователями и даже государственными структурами в создании этических норм использования видеоаналитики. Хотя существующий документ такого профиля, обсуждавшийся на конференции Computer Vision и Machine Learning в 2022 году, пока не имеет статуса официального инструмента отраслевого регулирования, он подчеркивает важность сотрудничества всех заинтересованных сторон в разработке и внедрении этих технологий.

Богатство вызовов

Помимо этических аспектов, в данном направлении остается широкий набор технологических головоломок, а также вопросы законности и ответственности.

Одной из главных проблем является доступность передовых технологий для разработчиков, которым для реализации масштабных проектов требуются значительные ресурсы, как энергетические, так вычислительные и технологические.

Примером может служить проект AlphaGo, когда для победы над человеком в игре Go потребовался целый комплекс ресурсов, от облака Google до множества нейронных сетей для анализа гигантских "деревьев решений" для выбора оптимального хода.

Кроме того, существует вопрос законности использования ИИ и видеоаналитики в ряде задач. Особого внимания требует определение ответственности за действия, выполненные с помощью ИИ. Это касается не только несчастных случаев с участием беспилотных автомобилей, но и ошибок в промышленности или медицине, где последствия могут быть крайне серьезными.

Существующие законы не всегда адекватно регулируют новые технологии, создавая правовой вакуум в отношении ответственности за ошибки ИИ. Требуется разработка нового законодательства, четко определяющего границы ответственности всех участников процесса: от разработчиков и производителей до конечных пользователей ИИ-систем.

Для преодоления этих вызовов необходима выработка комплексного подхода, включающего в себя совершенствование технологий таким образом, чтобы они стали более доступными, понятными и эффективными при меньших затратах ресурсов.

Перспективный ИИ

Основные области применения ИИ в видеоаналитике будут включать в себя медицину, транспорт, ритейл, и промышленность, где эти технологии могут использоваться для улучшения безопасности людей и эффективности процессов.

В частности, в сфере промышленного производства и добычи полезных ископаемых ИИ-видеоаналитика может помочь в мониторинге процессов с использованием камер, размещенных в защищенных корпусах, позволяя операторам контролировать ситуацию на безопасном расстоянии.

Также в будущем применение поведенческой аналитики будет выделяться как одно из наиболее сложных и противоречивых направлений. Оно охватывает задачи предсказания драк, детекцию запрещенных предметов и даже определения эмоционального состояния человека.

Среди других больших направлений применения ИИ в видеоаналитике – распознавание дипфейков. Это не только "игрушка" для пользователей, но и серьезный инструмент в криминальном мире, медиа и в политике, поэтому крайне важно уметь с точностью в 100% отличить подделку от реального видео.


Хотя ИИ значительно опережает человеческий интеллект в узкоспециализированных задачах, в многозадачности и комплексной оценке ситуаций человеческий мозг по-прежнему остается непревзойденным.

Современные ИИ-решения, такие как ChatGPT и Kandinsky, уже научились работать с текстом и изображениями одновременно, но всесторонняя адаптивность и многозадачность человека пока остаются за пределами их возможностей.

Поэтому пока что, несмотря на стремительное развитие технологий, человеческий фактор продолжает играть ключевую роль в анализе и принятии решений на основе данных видеоаналитики.