Image by Freepik
Московское метро внедрит искусственный интеллект в работу дикторов, главная причина - необходимость быстро готовить объявления о работе метрополитена. Первой веткой с нейродиктором станет Сокольническая линия из-за большого количества пересадок и транспортных хабов.
© ComNews
24.07.2025

Мэрия Москвы начала тестирование нейродиктора на Сокольнической ветке московского метро. Согласно сообщению столичного Департамента транспорта, он не заменит реальных людей, а поможет создавать объявления в едином стиле московского транспорта.

"Иногда в работе метро что-то меняется: закрывают эскалатор на ремонт или поезда следуют по другому маршруту. К каждой ситуации нужно оперативно подготовить объявление. Эту задачу за считаные минуты поможет решить нейроголос. При этом нужный аудиофайл можно создать удаленно. Специалистам достаточно подготовить текст, загрузить его в программу, настроить голос, выбрать тембр, интонацию и длину пауз. Кстати, искусственный интеллект обучали на реальных записях дикторов метро. Протестируем нейроголос на Сокольнической линии, где много пересадок на МЦК, МЦД, другие линии метро, авто- и ж/д вокзалы. Также здесь располагается станция "Комсомольская" - лидер по количеству объектов транспортной инфраструктуры, которые объявляют дикторы", - говорится в сообщении.

По словам заместителя мэра Москвы в правительстве столицы, руководителя Департамента транспорта и развития дорожно-транспортной инфраструктуры города Москвы Максима Ликсутова, после пилотного запуска на красной ветке Московского метрополитена руководство города примет решение о дальнейшем использовании технологии в метро и за его пределами.

"В Московском метрополитене постоянно открываются новые станции метро, а также происходят оперативные изменения, которые требуют подготовить качественное аудиоинформирование за несколько минут. Для этого была разработана российская программа, которая позволит создавать аудиосообщения без присутствия дикторов, однако нейроголос не будет отличим от голосов профессиональных дикторов Московского транспорта. Пассажиры смогут услышать только привычные голоса Юлии Романовой-Кутьиной и Алексея Россошанского, искусственный интеллект обучали сообщать объявления именно их голосами", - рассказал представитель пресс-службы Московского метрополитена.

Он отметил, что оцифрованный женский голос внедрен в чат-бот Александра, отвечающего на голосовые запросы пассажиров в приложении "Метро Москвы" и на стойках "Живое общение", на цифровой станции Большой кольцевой линии "Марьина Роща" и в терминале №1 московского городского вокзала Нижегородская.

https://www.comnews.ru/content/239358/2025-05-23/2025-w21/1011/razrabotkoy-golosa-osnove-neyrosetey-dlya-chat-bota-moskovskogo-metro-aleksandry-zanimalas-gruppa-crt

Ранее ComNews сообщал, что группа компаний ЦРТ занимается разработкой речевых технологий для чат-бота Александры, помощника Московского метрополитена. Представители пресс-службы ЦРТ не ответили на вопросы корреспондента ComNews.

Голоса нейродикторов, судя по опубликованной Дептрансом Москвы записи, заметно отличаются от голосов Алексея Россошанского (он озвучивает станции на пути от окраин столицы к центру) и Юлии Романовой-Кутьиной (ее можно услышать при поездке в обратном направлении, от центра к конечным станциям).

Представитель ПАО "Т-Банк" рассказал, что воссоздать голос дикторов московского метро возможно, современные технологии позволяют воспроизводить интонацию, тембр и динамику речи. Но в случае со знакомыми миллионам голосами резко возрастают требования к качеству.

"Даже незначительное отклонение от оригинала воспринимается как "почти тот голос, но все же не он". Чтобы добиться действительно неотличимого результата, необходимо точно передать не только акустические параметры, но и ту интонационно-эмоциональную окраску, которая делает эти голоса столь узнаваемыми и запоминающимися", - рассказал он.

Представитель Т-Банка отметил, что в вопросе воссоздания голоса существует не только технический, но и этический аспект. Даже идеально воссозданный голос можно использовать только с разрешения его владельца, так как он - часть личности и его копирование и использование требует юридически корректного и выверенного подхода.

"В большинстве случаев пользователи догадываются, что с ними говорят синтезированным голосом. Однако многое зависит от контекста и качества синтеза. В сервисных сценариях, например при звонке в справочную службу или при взаимодействии с автоответчиком, люди чаще всего не задумываются, кем именно произносится речь. Главное, чтобы голос звучал понятно, не вызывал раздражения, не выбивался из ожиданий по тону и решал задачу пользователя. Если человек намеренно вслушивается и пытается определить, с кем он взаимодействует - живым оператором или машиной, - внимание привлекают такие признаки, как паузы, интонационные переходы и эмоциональная окраска. Именно эти нюансы чаще всего выдают, что перед ним система синтеза речи", - заметил представитель Т-Банка.

С ним согласился ИТ-директор системного интегратора и разработчика ООО "Н-Тех" (Navicon) Роман Приходченко. По его словам, воссоздание голосов дикторов потребует высокого качества исходных записей и тонкой настройки моделей. Он отметил, что у Московского метрополитена есть все необходимые исходные данные и возможные результаты будет сложно отличить от оригинала.

Представитель Т-Банка рассказал, что в большинстве случаев реакция пользователей на синтезированный голос остается нейтральной или положительной, особенно в случаях, когда он помогает быстро решить задачу. По его словам, Т-Банк стремится, чтобы голосовые интерфейсы звучали не "как робот", а как живой эмоциональный собеседник.

Директор лаборатории безопасного искусственного интеллекта SAIL АНО "Институт искусственного интеллекта" (AIRI) и МТУСИ Олег Рогов отметил, что эмоциональная выразительность и интонационная гибкость - очень важные параметры в задачах аудиоинформирования, особенно в неожиданных ситуациях - например, при изменениях маршрута. Он рассказал, что современные TTS-модели (text-to-speech) уже демонстрируют впечатляющую способность имитировать реальные человеческие интонации и дикторский стиль в аудио.

"Скорее всего, многие пассажиры просто не заметят, что голос синтетический, особенно если нейросеть хорошо обучена на качественных данных. При этом для московского метро внедрение ИИ-озвучки - это не просто модный технологический тренд, а серьезное продвижение в цифровом развитии. Практика показывает: пассажиры в первую очередь все-таки ценят четкость объявлений. Будь то живой диктор или искусственный голос - для большинства это, скорее всего, не будет иметь принципиального значения", - заметил Роман Приходченко.

"Интеграция таких моделей в деятельность общественного транспорта может позволить автоматизировать процесс генерации объявлений и одновременно сохранить человечность взаимодействия с пассажирами. С развитием технологий в будущем можно будет понаблюдать, как еще могут быть применены такие решения. Вполне уместной кажется персонализация голоса с учетом времени суток и контекста поездки, например когда пассажир слышит более спокойный тембр в вечерние часы, как это реализуется с освещением в некоторых местах", - заключил он.

Новости из связанных рубрик