© ComNews
23.10.2018

Mail.Ru Group запустила новый продукт в рамках платформы Mail Cloud Solutions - сервис аудиоаналитики Sounds, работающий на базе нейронных сетей. Сервис позволяет автоматизировать и упростить многие рядовые процессы и решать задачи в сферах безопасности, ретейла, медиа, телекоммуникаций и др.

Как рассказали в Mail Cloud Solutions, технология распознавания звуков может использоваться во множестве сценариев: распознавание отдельных звуков в аудиопотоке (крики, выстрелы, шаги, звуки разбитого стекла, плач), очистка аудиозаписей от шумов, идентификация людей по голосам, повышение четкости голоса диктора, выявление неполадок в работе механизмов.

С помощью аудиоаналитики можно обрабатывать как архивные файлы, так и онлайн-потоки. В ряде ситуаций технология применяется как альтернатива видеонаблюдению: технология распознает звуки в полной темноте, а микрофоны стоят значительно дешевле камер и не требуют специальных условий для размещения и обслуживания.

Нейронные сети "компьютерного слуха" обучены на собственных датасетах Mail.Ru Group и работают на серверных мощностях компании. Специалисты компании сопровождают проект на всех стадиях реализации и дорабатывают его в соответствии с задачами заказчика.

"Не так давно Mail.Ru Group вышла на рынок компьютерного зрения, запустив проект Vision. Мы убедились, что решение востребовано, поэтому пошли дальше и дополнили зрение слухом. Новая технология позволит развить эффективность предложения в целом. Например, нестандартный шум или шорох на наблюдаемом объекте должен вызывать подозрение, если речь идет об охранных функциях. Это перспективное направление, которое сейчас активно развивается. По прогнозам исследовательской компании Research and Markets, к 2023 г. объем рынка аудиоаналитики составит $18 млрд", - говорит заместитель вице-президента, руководитель направления облачных и бизнес-сервисов Mail.Ru Group Егор Ганин.

Напомним, что ранее Mail.Ru Group объявила о выходе на рынок B2B-услуг в сфере компьютерного зрения с продуктом Vision (см новость ComNews от 21 февраля 2018 г.). В его основе лежит машинное обучение, которое с помощью нейронных сетей обеспечивает распознавание различных одушевленных и неодушевленных объектов.

"Мы работаем над проектом Sound с начала 2018 г. Практически сразу после запуска сервиса компьютерного зрения Vision мы поняли необходимость и в "слухе" - сервисе аудиоаналитики. Над разработкой данного продукта работали сотрудники компании, и мы не привлекали дополнительных средств", - рассказал Егор Ганин.

По его словам, оплата сервиса рассчитывается индивидуально для каждого клиента в зависимости от решаемых задач и необходимости кастомизации. Расчет происходит по API и зависит от продолжительности обработанного аудио.

"Наибольший интерес к сервису аудиоаналитики сейчас проявляют логистические компании и складские комплексы. Несколько клиентов сейчас находятся на стадии испытания технологии. Рынок подобных услуг совсем молодой, и аналогичных продуктов практически нет, поэтому сложно давать сегодня какие-то прогнозы", - подчеркнул Егор Ганин.

Егор Ганин также пояснил, каким образом происходит работа с сервисом со стороны клиента: "Все начинается с описания проекта и задач клиентом. Мы анализируем специфику бизнеса и предлагаем подходящие инструменты или разрабатываем индивидуальное решение. Мы можем предложить готовое API, которое клиент сможет интегрировать самостоятельно или решить задачу под ключ, что потребует дополнительного бюджета со стороны заказчика".

Директор научно-исследовательского департамента ГК "Центр речевых технологий" (ЦРТ) и лидер проекта "Нейроухо" Кирилл Левин рассказал, что в ЦРТ есть решения, которые позволяют классифицировать звуковую сцену. "Так, искусственный интеллект сможет оценивать, где находится устройство - закрытое помещение, открытое пространство, что, например, справа от микрофона находится железная дорога, по которой идет поезд, слева находятся люди, мужчина и женщина средних лет, спокойно разговаривают, впереди звуковой индикатор на светофоре разрешает пешеходам переходить дорогу и т.д.", - пояснил Кирилл Левин.

Кирилл Левин также рассказал, что у ЦРТ есть множество продуктов в области аудиоаналитики, работающей на базе нейронных сетей, - от шумоочистки и повышения разборчивости звука, до поиска по ключевым словам в слитной речи. "Сейчас мы работаем над большим проектом объединения этих решений в платформу анализа звуковой среды, проще говоря - машинный слух - под названием "Нейроухо". Решение будет доступно через облачную платформу вместе с другими технологиями ЦРТ, например той же видеоаналитикой", - добавил Кирилл Левин.

По его словам, практически все крупные компании, проводящие исследования в сфере искусственного интеллекта и особенно распознавания речи, так или иначе работают с этим направлением. Среди них Google, IBM, Microsoft, Amazon, Nuance и другие компании. "Сейчас точно можно говорить об устойчивом спросе на речевую аналитику: она сейчас используется в большинстве крупных контактных центров, интерес к ней проявляет сфера ретейла", - пояснил Кирилл Левин.

Он также рассказал, что данная технология может помочь людям с ограничениями по слуху, работникам шумных производств, вовремя предупреждая об опасности, призывая обратить или повысить внимание через носимые гаджеты - умные очки, браслеты, смартфоны и т.д.

"Что касается анализа звуковой обстановки, распознавания шумов, регистрации акустических событий, то сферы применения таких технологий - робототехника, интернет вещей, телемедицина, умный дом, умный город. Большие перспективы у "Нейроуха" в сегменте беспилотных автомобилей, где технология будет успешно дополнять машинное зрение", - подчеркнул Кирилл Левин

Как заметил Кирилл Левин, возможностью встроить распознавание звуков в системы мониторинга интересуются производители медицинской техники. "Например, отслеживать здоровье пациента по звуку кашля, вызывать помощь, если регистрируется звук падения или просьба о помощи в сочетании с изменениями показателей сердечных мониторов и т.д.".

Кирилл Левин также рассказал, что, по данным аналитиков ЦРТ, в ближайшие два-три года отрасль аудиоаналитики на российском рынке будет развиваться с опережением среднерыночных темпов - более 25% в год.