Дмитрий
Булгаков
08.08.2023

Человек не способен отличить до 25–27% звуковых дипфейков, созданных при помощи нейросетей, от реальных аудиозаписей голосов людей — к таким выводам пришли сотрудники Университетского колледжа Лондона. По мнению экспертов, созданные нейросетями аудиозаписи могут стать опасным оружием в руках преступников. Подробности о том, какие риски несут в себе звуковые дипфейки и как защититься от них, — в материале "Известий".

Новая угроза

Восприятие людьми звуковых дипфейков стало предметом научной работы специалистов Университетского колледжа Лондона (UCL). Они провели эксперимент, в котором приняли участие 500 испытуемых, разделенных на две группы — все они были носителями английского и китайского языков.

Одна группа участников долгое время училась распознавать аудиодипфейки, в то время как вторая половина испытуемых никак не готовилась к эксперименту. Ученые записали образцы голосов нескольких мужчин и женщин, говоривших на этих языках, и использовали их для обучения генерирующей нейросети VITS.

Затем исследователи подготовили 50 коротких аудиозаписей, сгенерированных при помощи нейросети VITS, которые они предложили прослушать участникам эксперимента. Последним нужно было попытаться ответить, является ли запись настоящей или синтезированной искусственным интеллектом. Те же 50 аудиодорожек авторы эксперимента загрузили в нейросетевой алгоритм LFCC-LCNN, специально созданный для выявления дипфейков.

Как оказалось, и подготовленные участники эксперимента, и простые обыватели не смогли корректно выявить до 25–27% дипфейков. Такие результаты были примерно одинаковыми как для англоязычных испытуемых, так и для носителей китайского языка. Тем временем алгоритм LFCC-LCNN смог корректно распознать все синтезированные искусственным интеллектом аудиодорожки.

Механика дипфейков

В Университетском колледже Лондона уверены: итоги научной работы о звуковых дипфейках указывают на необходимость создания новых подходов и инструментов для распознавания контента, сгенерированного нейросетями, а также для предотвращения их неправомерного использования. По словам профессора UCL Льюиса Гриффина, из-за высокой динамики, с которой развивается медиаконтент, созданный с помощью искусственного интеллекта, человечество может столкнуться с новыми рисками.

"Для правительств и коммерческих организаций было бы разумным разработать стратегии и инструменты, позволяющие бороться с неправомерным использованием этих технологий и при этом не ограничивающие перспективы их легального применения", ― отметил профессор Гриффин.

Как говорит в беседе с "Известиями" руководитель группы защиты инфраструктурных IT-решений компании "Газинформсервис" Сергей Полунин, сегодня звуковые дипфейки (как и другие) делаются с помощью машинного обучения и технологий искусственного интеллекта, которые обучаются на исходном материале. При этом чем больше исходного голосового материала, тем правдоподобней получится подделка.

- Для производства звуковых дипфейков необходимо специализированное программное обеспечение, алгоритмы для обработки и синтеза голоса, а также вычислительные ресурсы — такие как мощные графические процессоры и обучающие модели, — отметил, в свою очередь, IT-специалист и генеральный директор компании ProControl Станислав Сидоров.

По словам Сергея Полунина, при наличии достаточного количества исходного материала надлежащего качества современные голосовые модели обучаются довольно просто. Более того, есть целые сервисы, позволяющие создавать звуковые дипфейки буквально "под ключ", не вдаваясь в технические подробности.

В даркнете создать подобные видео с любым человеком предлагают за $20 тыс.
Однако для создания правдоподобных дипфейков всё же необходима высокая техническая компетенция в этом вопросе. При ее наличии аудиозаписи, созданные нейросетями, могут воссоздавать уникальные характеристики и интонации конкретного человека, что может использоваться в самых разных целях.

На службе криминала

Сами по себе дипфейк-технологии (для синтезирования аудио, видео или изображений) не являются ни плохими, ни хорошими — всё зависит от того, с какой целью их используют. Об этом в беседе с "Известиями" говорит руководитель российского исследовательского центра "Лаборатории Касперского" Дмитрий Галов. При этом эксперт отмечает: угрозу со стороны мошенников в плане использования звуковых дипфейков сегодня нельзя назвать массовой.

- Все немногочисленные случаи применения дипфейк-технологий злоумышленниками, по сути, сводятся к приемам социальной инженерии, когда мошенники, выдавая себя за других людей, пытаются выманить у жертв деньги или личные данные, — рассказывает специалист.

С этим согласен и Сергей Полунин: он объясняет, что дипфейки выводят сценарии фишинга на новый уровень. Для создания таких сценариев злоумышленникам порой бывает необходимо записать какое-то голосовое сообщение — например, от представителя банка, который предлагает проверить надежность пароля клиента, или родственника, который попал в сложную ситуацию. Тут-то преступникам на помощь и приходят нейросети.

По словам Дмитрия Галова, в России уже известно о нескольких случаях, когда злоумышленники использовали дипфейки — правда, видео, а не аудио. Мошенники распространяли в соцсетях ролики с образами крупных предпринимателей, чтобы выманить деньги у потенциальных жертв.

— В других странах было несколько публичных инцидентов с использованием голосовых дипфейков — в тех случаях мошенникам удавалось ввести в заблуждение сотрудников различных организаций и выманить у них крупные суммы денег, — говорит Галов.

В свою очередь, Сергей Полунин отмечает, что злоумышленники в России еще не научились в полной мере использовать дипфейки. Однако в мире зафиксировано немало случаев, когда именно при помощи дипфейков мошенники выманивали у людей деньги, представляясь родственниками, попавшими в беду. В этой ситуации на руку злоумышленникам играет фактор стресса: жертвы не могут проанализировать ситуацию, даже если подделанная нейросетями запись голоса была совсем не идеальной.

Способы защиты

По словам экспертов, опрошенных "Известиями", сегодня технологии развиваются быстрыми темпами, а для создания убедительных дипфейков всё реже требуется наличие продвинутых навыков. Поэтому нельзя исключать, что в будущем объемы мошенничества с их использованием увеличатся. В связи с этим особенно актуальным становится вопрос, может ли обычный человек отличать голосовые дипфейки — именно ему посвятили свою работу специалисты Университетского колледжа Лондона.

- Распознать голосовой дипфейк для обычного человека зачастую может оказаться проблематично, — рассказывает Дмитрий Галов. — Дело в том, что мошенники в реализации своих схем используют не только дипфейки как таковые, а целый комплекс мер, включающий в том числе и методы социальной инженерии.

Иными словами, объясняет специалист, злоумышленники не просто обращаются к потенциальной жертве, а пытаются ее запугать, заставить действовать быстро, не дают времени подумать и используют разные правдоподобные легенды. Однако, как говорит Сергей Полунин, распознать звуковой дипфейк возможно, если разговор продлится достаточно долго или если вы внимательно прислушаетесь к тому, как собеседник произносит привычные фразы. Дело в том, что у людей есть много особенностей речи, которые компьютер может просто не считать.

- Вы своего близкого человека слушаете часто и точно поймете, если что-то не так, даже если не сможете это сформулировать словами, — отмечает Полунин.

Чтобы защититься от различных дипфейков, специалисты советуют критически относиться к любой информации и перепроверять все сомнительные сообщения. Важно не гадать, кто вам звонит, а сломать сценарий злоумышленников и перезвонить самостоятельно. Так вы будете уверены, что действительно общаетесь с тем, кем представился звонящий, что особенно актуально на фоне роста числа случаев телефонного мошенничества.

Новости из связанных рубрик