Как ИИ упрощает и автоматизирует работу стриминговых сервисов
Арефьев
директор по развитию продукта и технологий онлайн-кинотеатра KION
Дугин
руководитель группы видеоаналитики компании MTS AI
Онлайн-кинотеатры и различные стриминговые сервисы активно используют искусственный интеллект для выполнения собственных бизнес-задач и разработки нового функционала для пользователей. ИИ-решения уже интегрированы в Netflix, Hulu, Spotify, YouTube, TikTok и другие крупнейшие сервисы этого рынка.
Алгоритмы машинного обучения исследуют историю просмотров пользователей, их предпочтения, привычки и коммуникацию с другими зрителями. На основе этих данных ИИ может рекомендовать им новый фильм или сериал. В этом помогает аналитика жанров и форматов с самыми высокими и низкими рейтингами, а также данные о том, в какие дни публикация контента приносит наибольшее число просмотров.
Главная цель ИИ-фичей - увеличивать life-time пользователей и делать просмотр контента более комфортным. Кроме того, применение ИИ и ML помогает бизнесу экономить большое количество ресурсов. Например, благодаря возможности автоматической генерации постеров или модерации контента можно сэкономить тысячи рабочих часов сотрудников.
Об этих и других кейсах использования ИИ для стриминговых сервисов рассказывает руководитель группы видеоаналитики компании MTS AI Андрей Дугин и директор по развитию продукта и технологий онлайн-кинотеатра KION Алексей Арефьев.
Распознавание актеров в кадре
Распознавание актеров - привычная и любимая зрителями функция. Поставив видео на паузу, зритель может сразу узнать имя актера и получить доступ к его фильмографии. Чтобы научить ИИ узнавать актеров, разработчикам нужно сначала получить у онлайн-кинотеатра доступ к фильму и имена актеров, которых необходимо найти в кадре. В ответ нейросеть формирует .json-файл с разметкой, в которой указано время каждого появления актера в кадре и границы, по которым лицо актера на паузе обведут в рамочку.
Сначала разработчики создают подборку фотографий актера из поисковых сервисов, после чего удаляют из нее очевидно неподходящие варианты - например, изображения других людей или на которых более одного человека. Далее за дело берется платформа видеоаналитики, которая формирует векторы-дескрипторы лиц на фотографиях и объединяет похожие в кластеры. Если в кластере больше всего изображений, значит, он больше всего соответствует нужному актеру.
Фильм или сериал, в котором необходимо найти актеров, также покадрово анализируется через платформу. Она получает векторы-дескрипторы всех людей, которые появляются в видеозаписи, после чего система сопоставляет их с распознанными лицами актеров из кластеров.
Эта функция позволяет зрителям активно пополнять свою синематеку, чаще возвращаться в сервис и проводить в нем больше времени за просмотром отложенных фильмов.
Генерация постеров
Когда пользователь хочет посмотреть в онлайн-кинотеатре сериал, он сначала выбирает сезон, после чего видит список серий с текстовым описанием и характерным кадром. Этот кадр к каждой серии и называется постером. Создание ярких и привлекательных обложек для каждой серии сериала - задача непростая. Ранее для выбора постера сотрудникам онлайн-кинотеатров приходилось отсматривать каждую серию и выбирать наиболее подходящее изображение. В среднем на выбор одного постера уходило примерно в 10 раз больше времени, чем длится сама серия.
С помощью искусственного интеллекта и алгоритмов машинного обучения можно значительно сократить время работы сотрудников, потраченное на подбор постера для фильмов и сериалов, полностью автоматизировав этот процесс.
ИИ-решения для генерации постеров работают в несколько этапов. На первом из них искусственный интеллект выбирает "кандидатов" в постеры - для этого нейросеть отбирает все статичные кадры (которые почти не меняются около трех секунд), потому что в них оператор на мгновение фиксирует сцену, а актер - эмоцию. В среднем из 170 тысяч кадров в фильме (или почти вдвое меньше в сериях) нейросеть получает 150-300 кадров, которые переходят на следующий этап.
На втором этапе все отобранные материалы сводятся в ролик, в котором нейросеть ищет кадр, соответствующий всем требованиям идеального постера. В первую группу критериев входят эстетические параметры: соблюдение правил композиции, открытые глаза, ярко выраженные эмоции. Учитываются и стилистические критерии, основанные на примерах традиционных постеров: наличие главного героя эпизода крупным планом, кадр с важным сюжетным событием и т.д. Также искусственный интеллект проверяет отобранные кадры на наличие запрещенного контента и соответствие правилам онлайн-платформы.
Дизайнеры онлайн-кинотеатра могут получать от нейросети не только вариант идеального постера, но и еще до 300 изображений. Их в дальнейшем используют для подготовки альтернативных постеров, чтобы бороться с баннерной слепотой (когда пользователь привыкает к схожим постерам и ему нужно показать что-то новое).
Точность работы алгоритмов, помогающих создать постеры, сегодня превышают 90%. Помимо этого, использование нейросетей значительно сокращает ручной труд и финансовые расходы на него, а также снижает количество ошибок из-за человеческого фактора, когда постер не нравится зрителям.
Автоматическая модерация контента
Количество контента, загружаемого пользователями на стриминговые сервисы, исчисляется годами по длительности, петабайтами по размеру и миллионами по количеству. Конечно, силами даже очень большого отдела модераторов отсмотреть все это невозможно.
Однако с помощью ИИ можно автоматизировать процесс поиска запрещенного контента на видео, такого как реклама азартных игр, употребление алкоголя и запрещенных веществ.
Для этого используются мультимодальные языковые модели - например, Dino. Они уже обучены находить предметы на изображении в кадре и способны распознавать до 70% существующих объектов без дополнительного обучения. Достаточно "спросить" нейросеть, что она видит в кадре, и уточнить, есть ли в нем тот или иной запрещенный контент. LLM-модель дает бинарный ответ (да или нет) и указывает степень уверенности в нем.
Системы модерации контента могут распознавать запрещенный контент с точностью свыше 90% за несколько секунд, что позволяет отсеять большую часть видео без нарушений. Таким образом, сотрудники могут отсматривать только трансляции, потенциально нарушающие правила сервиса. Финальное решение о принятии мер остается за модераторами: они могут блокировать все подозрительные записи или же проверять только стримы, в которых нейросеть с высокой степенью уверенности указывает на запрещенный предмет.
Super Resolution для архивных фильмов
Онлайн-кинотеатры сталкиваются с тем, что им нужно искусственно повышать разрешение видео. Это актуально и для старых фильмов, и для новых, поступающих от правообладателей в формате SD.
Для улучшения качества изображения можно также использовать нейросети. Они будут дробить пиксели исходного кадра на несколько частей, а затем подбирать для них наиболее подходящие по цвету фрагменты изображения. Также нейросеть способна автоматически распознавать объекты в кадре и дорисовывать недостающие детали и пиксели так, чтобы они вписывались в общее изображение. Благодаря системам Super Resolution разрешение увеличивается в два-четыре раза: SD-фильмы можно конвертировать в Full HD, а 2K-фильмы - в 4K.
Нейросеть анализирует сразу пять кадров: центральный, а также два кадра до и после него. После ML-модель выполняет алгоритмическое увеличение центрального кадра, а также добавляет детали из соседних кадров. Для этого она рассчитывает движение объектов в соседних кадрах и пытается восстановить их в центральном кадре - или просто объединить кадры, чтобы повысить детализацию.
При этом улучшенное изображение нравится зрителям.
Пропуск титров и заставок
Пропуск титров и заставок - бенчмарк современных онлайн-кинотеатров. Ранее титры размечали вручную, однако такой подход предполагает большие временные затраты и требует дополнительных ресурсов - бюджета, квалифицированных сотрудников и контроля со стороны менеджеров. С помощью ИИ один сезон сериала можно обработать в три-пять раз быстрее.
Для того чтобы у онлайн-кинотеатра появилась функция пропуска титров, разработчикам нужно проделать непростую работу и натренировать ИИ размечать видео. Сначала нейросеть необходимо обучить распознавать логотипы киностудий, опенинги сериалов и оригинальные заставки к каждой серии, титры, а также дополнительные творческие вставки - например, как у Бондианы и фильмов Marvel.
Прежде всего подобные системы ищут в фильмах и сериалах совпадение по базе типичных заставок от киностудий разных лет и стран - для этого используется механизм математического хеширования, чтобы сопоставить числовое значение архивных заставок с фрагментами анализируемого фильма или сериала. Затем нейросеть определяет все потенциальные заставки по множеству критериев: текст на черном фоне, анимационные ролики с творческим монтажом и т.д.
Чтобы исключить возможность ошибки, отобранные фрагменты видео обычно проходят множество фильтров - в частности, по продолжительности (заставка не может быть короче 5 секунд и длиннее 8 минут) и наличию текста (в заставке хотя бы раз должна быть какая-либо подпись). При завершении разметки система с помощью хеширования уточняет границы заставок, чтобы при перемотке зритель попал к началу сюжетной сцены. Сегодня успешность распознавания титров и заставок нейросетью достигает 90%.
Исследование показало, что после внедрения автоматической разметки время просмотра контента на компьютерах, телевизорах и других широких экранах выросло на 3,3% - дома люди дольше смотрят сериалы, если им предлагать пропускать заставку и титры, а также автоматически запускать новую серию.
Подбор места для рекламы
Модель монетизации некоторых онлайн-кинотеатров предполагает вставку рекламных блоков в фильмы и сериалы. Очевидно, платформы заинтересованы, чтобы ролики не вызывали у пользователей раздражение.
Для этих целей используются AVOD-детекторы (advertising video on demand) - они ищут наиболее подходящие места для рекламного блока. Такими ИИ считает моменты на границе различных сцен, когда действие переносится в другую локацию и заканчивается логический этап повествования, при этом реклама не должна прерывать диалог героев. Также нейросеть использует алгоритм VAD (voice activity detector) - он проверяет, что в момент изменения сцены не звучит чья-либо речь, чтобы не наложить на нее рекламный блок.
Сформированный список из подходящих для рекламы фрагментов фильма обрабатывается в соответствии с техническим заданием от заказчиков. Обычно они указывают приоритетное время размещения рекламы - например, на 15-й или 20-й минуте фильма. После обработки ИИ уточняет подходящее по всем критериям место вставки и направляет заказчику.
По оценкам участников рынка, удачное расположение рекламы может не только повысить лояльность зрителей, но и увеличить годовую выручку от рекламы на 10%.