Ассоциация больших данных и HFLabs презентовали результаты тестирования риск-модели деобезличивания
19 июня Ассоциация больших данных и HFLabs впервые представили результаты тестирования модели оценки рисков повторной идентификации с использованием продукта для обезличивания данных "Маскировщик". "Маскировщик" — инновационное решение для умного маскирования персональных данных. Он снижает риск утечки во время тестирования ИT-систем, сохраняя при этом качество тестов. Инвестиции в продукт составили около 100 млн руб.
В рамках тестирования специалистами-методологами Ассоциации больших данных были смоделированы кибератаки с целью получения персональной информации из обезличенных наборов данных, подготовленных с помощью а"Маскировщика" для кейсов "Оценка оттока банковских клиентов (Churn Rate)" и "Маркетинговая атрибуция на независимых наборах". По результатам атак был осуществлен расчет рисков повторной идентификации, а также подготовлены рекомендации по адаптации параметров маскирования.
"При обработке обезличенных данных мы оцениваем вероятность успешной атаки на них, в результате которой может быть нарушена приватность. Успешный эксперимент определения уровня риска деобезличивания данных бизнес-кейсов с использованием "Маскировщика" позволил нам решить задачу максимизации функции полезности продукта при минимизации рисков данных. В ходе эксперимента мы снизили комплексные риски маскированных данных на 97,5% при сохранении их высокого показателя полезности, который составил 71%. Эти результаты подчеркивают эффективность наших методов обезличивания и их способность защищать конфиденциальность данных без ущерба для их аналитической ценности," — отмечает исполнительный директор Ассоциации больших данных Алексей Нейман.
Стоимость разработки Маскировщика оценивается в 80-100 млн руб. Но при этом продукт HFLabs разрабатывала продукт не с нуля, в его основе лежали разработки в области качества данных за последние 19 лет, так что реальная себестоимость продукта выше.
Модель оценки рисков повторной идентификации позволяет рассчитать вероятность выделения персональной информации в обезличенном датасете. Основываясь на этой оценке, можно принимать обоснованные решения об используемых средствах защиты и методах обработки данных. По результатам тестирования риск-модель доказала свою работоспособность, а также была дополнена подходами по симуляции атак, которые углубляют понимание рисков повторной идентификации за счет учета рисков выделения и связывания.
"При создании "Маскировщика" во главу угла мы поставили сохранение контекста данных. Умное маскирование учитывает пол, возрастную группу, привязку адреса и телефона к региону и многое другое. Такой подход позволяет максимально эффективно использовать обезличенные данные в тестировании высоконагруженных ИT-систем. При этом вопрос безопасного использования таких данных остается ключевым для бизнеса. Мы благодарны АБД за совместную работу: благодаря риск-модели, мы смогли доработать продукт и свести риски работы с обезличенными данными к минимуму. Разработка риск-модели и ее валидация — большой шаг к выводу обезличенных данных из серой зоны. Уверен, что этот проект АБД позволит продвинуться к легализации их использования в бизнес-среде", — говорит Никита Назаров, технический директор HFLabs.
Риск-модель может стать основой для нахождения баланса между безопасностью и полезностью данных, когда полученным данным можно доверять и использовать, но по которым невозможно реидентифицировать конкретных субъектов. При этом целесообразно оценивать риски деобезличивания в каждом конкретном случае применения методов, в том числе давать оценку контекстного риска (исходя из того, в каких условиях будет обрабатываться обезличенный датасет).
Благодаря плодотворной совместной работе HFLabs и Ассоциации больших данных, "Маскировщик" при обезличивании данных сохраняет их качество и контекст, делая их максимально похожими на оригинальные и значительно снижая риски повторной идентификации. Внедрение риск-ориентированного подхода при обезличивании данных доказало свою важность, обеспечивая более точное управление рисками и максимальную полезность данных.