В приватном режиме: как обеспечить сохранность личных данных, используя нейросети

Иван
Чижов

16.01.2024

Отсутствие приватности данных при использовании нейронных сетей — одна из ключевых проблематик на 2024 год, в первую очередь для финансового сектора, государственных информационных систем и медицинских организаций. Поэтому в ближайшее время будут активно развиваться методы обезличивания персональных данных для нейронных сетей как механизмы обеспечения приватности пользователей.

Заместитель руководителя лаборатории криптографии по научной работе в компании "Криптонит" Иван Чижов рассуждает о важных задачах, которые стоят перед компаниями — разработчиками информационных систем, обрабатывающих персональные данные

Задача 1: Обучение нейросетей на обезличенном массиве данных

Большинство информационных систем, которыми мы пользуемся, собирают статистику. Например, если это интернет-магазин, платформа собирает информацию, что и когда мы покупаем, сколько денег мы в среднем тратим и так далее. Потом нейронная сеть обучается на этих данных, и создается модель. Но проблема в том, что это — данные реальных пользователей, наши с вами. Зачастую такой набор информации позволяет идентифицировать конкретного человека. Поэтому одна из первых задач — обеспечить обучение нейросетей на зашифрованных данных.

Задача 2: Обеспечение анонимизации данных, поступающих в нейросеть

Представьте, что вы хотите обработать фотографию с помощью нейросети. Вы открываете приложение, загружаете свое фото и просите сервис выполнить задачу. Здесь возникает еще одна проблема: посылая запрос в систему, мы используем свои личные данные — фотографию. Но это безобидный пример. Теперь представьте, что это сервис для получения информации о состоянии вашего здоровья. Чтобы получить диагноз, вы посылаете свои анализы, снимки — некую чувствительную медицинскую информацию, которой вы бы не хотели делиться. Но как этими данными распорядится сервис? Не произойдет ли утечки информации при работе с нейросетью? Вторая и не менее важная задача — обеспечить анонимность или обезличивание данных пользователей при построении модели нейронной сети.

Задача 3: Обучение модели на данных нескольких компаний

Модель нейронной сети строится на основе огромного количества данных. Чем больше разной информации об объекте изучения, тем точнее будет работать нейронная сеть. Если объединить данные, например, нескольких банков, мы бы смогли получить более усовершенствованную модель. Как же собрать данные из разных компаний, чтобы каждый обучил модель нейронной сети для своих задач? Очевидно, что каждая компания будет охранять данные, которые собрала, потому что это ее доход. Третья задача — получить синергетический эффект от обучения модели на данных сразу от нескольких компаний, обеспечив приватность данных одной компании по отношению к другой.

Варианты решения

Каждая из этих задач может решаться различными методами.

Для решения первых двух задач можно использовать криптографические механизмы гомоморфного шифрования, которые появились сравнительно недавно. Они позволяют обрабатывать зашифрованные данные и результат (модель нейросети) тоже получать зашифрованный. Таким образом, реальные данные пользователей будут защищены уже на этапе обучения модели. В открытом виде нигде и ни у кого, кроме как на вашем устройстве, эти данные не появятся. Однако этот подход достаточно сложно реализовать. Схемы гомоморфного шифрования только развиваются и имеют серьезные ограничения, которые снижают полезность нейронной сети.

Также можно использовать метод обезличивания персональных данных. Но и здесь есть свои тонкости. Совокупная информация о пользователях (пол, стоимость покупки, время посещения сайта и т. д.) повышает точность работы моделей нейронных сетей. Если обезличить данные и подать в систему, например, только информацию о стоимости покупки, мы не получим то преимущество, которое есть у системы нейронных сетей сейчас. Поэтому важно разработать такой метод, который позволял бы обезличить персональные данные для обучения модели, но чтобы они сохраняли свойства персональных данных реального человека.

Для решения третьей задачи можно использовать технику федеративного обучения, когда одна компания не просто передает другой обезличенные данные, а создает зашифрованную модель нейронной сети на своих данных. И далее вторая компания дообучает свою модель, используя полученную. Федеративное обучение — тоже сравнительно новая технология. Однако кажется, что ее внедрить проще, чем создать нейронную сеть, которая обучается полностью на зашифрованных данных. Но здесь тоже есть свои проблемы. Во-первых, психологическая: при передаче своих данных компании сомневаются в надежности этого метода, и этот страх нужно преодолеть. И, во-вторых, необходимы более развитые методы доказательства безопасности подобного обучения.

Уверен, что в этом году будут активно вестись научные исследования в области защиты данных, которые циркулируют в системах искусственного интеллекта. Мы обязательно увидим новые подходы и развитие старых идей. Скорее всего, некоторые крупные компании начнут внедрять методы обезличивания персональных данных в свои информационные системы, построенные на базе технологии искусственного интеллекта.

В приватном режиме: как обеспечить сохранность личных данных, используя нейросети

Задача 1: Обучение нейросетей на обезличенном массиве данных

Задача 2: Обеспечение анонимизации данных, поступающих в нейросеть

Задача 3: Обучение модели на данных нескольких компаний

Варианты решения

Новости из связанных рубрик

Искусственный интеллект и сквозные технологии

Путин поручил регионам образовать комиссии по внедрению технологий ИИ

Потребности заказчиков превысили возможности разработчиков ИТ-решений

Нормативные акты

Депутаты Госдумы РФ выступили против масок в публичных местах

Спрос на оптоволокно огромный, а удовлетворить его не получается. Эксперты - о ситуации на рынке

Обратная пропорция. Всего 13% российских компаний готовы вернуться к зарубежным ИБ-решениям

Назови свою цену. "Касперский" продавал лицензии госструктурам со скидкой до 540%

Потребности заказчиков превысили возможности разработчиков ИТ-решений

Депутаты Госдумы РФ выступили против масок в публичных местах

Москва и Петербург возглавили рейтинг пользователей видеозвонков

Путин поручил регионам образовать комиссии по внедрению технологий ИИ

Роскомнадзор предупредил о мошеннических рассылках с запретом VPN

СП предложила стандартизировать требования к описанию ПО в рамках госзакупок

Котировки colocation. 3data вывела услуги ЦОД на биржу

"Базис" взлетел: акции и выручка пошли в рост

IAR-Group внедрила технологию для маркировки FFS мешков для Cemix

"Геоскан" и "Рослесозащита" займутся цифровым мониторингом лесов с помощью беспилотников

"РТ-Техприемка" представила ИИ-платформу "Фрейма" для организации мероприятий

Группа "Т-Технологии" запустила речевую аналитику офлайн-коммуникаций для бизнеса

"Интeр РАО" представило электронную торговую площадку для купли-продажи электроэнергии

Что ждет цифровизацию здравоохранения в 2026 году

Спасти почтальона с окраины

Роспотребнадзор: закон о защите русского языка касается сайтов в интернете

"Газпром-Медиа Холдинг" импортозаместил 95% ИБ-систем

Уровень культуры кибербезопасности среди владельцев онлайн-ресурсов в России показал двузначный рост

Медиасервисы VK оказались установлены в каждом пятом новом китайском автомобиле

OneBusiness от Билайна трансформируется в полноценную бизнес-платформу