Регуляторная неопределенность помешала работе с медицинскими данными

Ассоциация больших данных (АБД) совместно с юридической компанией Verba Legal опросила более 100 представителей ИТ-компаний, фармацевтического бизнеса, медицинских организаций и госорганов. Средняя оценка достаточности существующих механизмов доступа к медицинским данным составила 5,03 балла из 10. Критически низкую доступность (1-3 балла) отметили 26,3% респондентов, среднюю (4-6 баллов) - 51,7%, высокую (7-10 баллов) - только 23,7%. Хуже всего доступ к данным оценили представители ИТ-сферы (средний балл 3,9) и фармацевтических компаний (4,2).
Разработчики ИИ-решений для медицины сталкиваются с ограниченным доступом к деперсонализированным данным для обучения и валидации моделей. Один из участников опроса рассказал, что открытые датасеты на русском языке практически отсутствуют.
Вторая по популярности проблема после искусственного интеллекта - проведение исследований эффективности и безопасности лекарственных препаратов и медицинских изделий (RWE-исследования). Их назвали перспективными 28,4% респондентов.
Помимо регуляторных барьеров (73%) и отсутствия инфраструктуры (67%), участники опроса указали на низкое качество первичных данных и отсутствие единых стандартов (55%). Среди предложений по преодолению этих барьеров: создание единого оператора медицинских данных (по аналогии с оператором фискальных данных или системой "Честный знак"), разработка открытых обезличенных датасетов на русском языке по образцу американского MIMIC (американский репозиторий клинических данных пациентов отделений интенсивной терапии, широко используемый для обучения ИИ-моделей), а также внедрение гибридной модели согласий. Последняя предполагает использование обезличенных данных для лечения и научных исследований по умолчанию, но требует активного согласия пациента на коммерческое использование его данных.
Представитель пресс-службы АБД сообщил корреспонденту ComNews, что ассоциация может стать одним из участников проекта по созданию открытых медицинских датасетов совместно с государством, медицинскими организациями и индустрией, в том числе оказывая методологическую поддержку в вопросах работы с чувствительными данными. "Мы исходим из того, что создание национального репозитория данных - это инфраструктурная задача, требующая консолидированного участия ключевых стейкхолдеров и прежде всего решения нормативных вопросов обращения обезличенных медицинских данных.
Представитель пресс-службы АБД отметил, что ассоциация также видит государственное "озеро данных" Минцифры важным этапом для апробирования доверенной инфраструктуры обмена данными, в рамках которой должны быть протестированы подходы безопасного сбора, объединения и предоставления доступа. "Следующим этапом, на наш взгляд, должно стать создание отраслевых доверенных посредников, которые смогут объединять экспертизу, характерную для конкретного сегмента (фармацевтика, медтех, финансы, телеком и др.), для качественной и безопасной подготовки датасетов под задачи ИИ и научных исследований", - заключил представитель пресс-службы АБД.
https://www.comnews.ru/content/243952/2026-02-26/2026-w09/1013/chto-zhd…
Представители отраслевого консалтинга и ИТ-компаний дополнили картину. Директор практики "Фармацевтика и Здравоохранение" Axenix Юлия Гусак считает, что вопрос не столько в том, что важнее - регулирование или инфраструктура, сколько в готовности самой отрасли работать с данными как с полноценным активом. "На практике я часто вижу, что организации сталкиваются не с нехваткой технологий, а с отсутствием единого представления о данных: какие наборы существуют, насколько они качественны и кто отвечает за их использование. Поэтому я бы все-таки поставила на первое место регуляторную определенность, особенно в части использования обезличенных данных для исследований и разработки ИИ. Уже есть медицинские организации, которые применяют ИИ для поддержки принятия врачебных решений и других прикладных задач, однако без понятных правил работы с данными масштабирование таких практик остается затруднительным", - пояснила Юлия Гусак.
Генеральный директор АНО "НЦК ИСУ" Кирилл Семион рассказал, что открытые датасеты практически отсутствуют по простой причине: "Мало кто готов вкладывать ресурсы в их создание. Прибыли это не принесет. Если бы государство взяло на себя эту задачу, проблема могла быть решена. Что касается барьеров, то критично и то и другое".
Директор стратегических направлений "Дар" (входит в ГК "Корус Консалтинг") Роман Таранов говорит, что утверждение об открытых медицинских датасетах, отсутствующих на русском языке, в целом справедливо, особенно если смотреть на вопрос не формально, а с точки зрения потребностей разработчиков ИИ.
"Конечно, есть локальные наборы данных, исследовательские выборки, данные отдельных организаций, иногда открытые или полуоткрытые датасеты по отдельным задачам. Но в России пока нет сопоставимых по масштабу, качеству и доступности открытых клинических репозиториев, которые можно было бы использовать как устойчивую базу для обучения, тестирования и независимой валидации медицинских ИИ-решений. Также отсутствуют аналоги крупных мультицентровых наборов данных, где были бы представлены разные регионы, типы медицинских организаций, группы пациентов, клинические сценарии и форматы. Поэтому медицинские данные есть, но они остаются разрозненными, фрагментированными и часто недоступными для внешних разработчиков и исследователей", - отметил Роман Таранов.
Технический директор ООО "МД Аудит" (MD Audit) Юрий Тюрин сообщил о том, какие датасеты существуют, почему их недостаточно и что мешает их созданию: "Можно выделить несколько типов доступных данных: локальные клинические выборки внутри медорганизаций, исследовательские датасеты в вузах и НМИЦ, ограниченные наборы в рамках пилотных проектов и регуляторных песочниц. Их недостаточность объясняется тремя факторами. Во-первых, фрагментация: данные разрозненны и не объединены единой инфраструктурой. Во-вторых, отсутствие единых стандартов - форматов, протоколов, справочников, что снижает их совместимость и качество. В-третьих, правовая неопределенность: статус обезличенных данных и правила их использования остаются не до конца урегулированными, что сдерживает публикацию и обмен. Дополнительно влияет чувствительность медицинской информации: риски деанонимизации и требования к защите данных ограничивают открытость по умолчанию. В итоге ключевой барьер заключается не столько в отсутствии данных как таковых, сколько в отсутствии доверенной инфраструктуры и прозрачных правил их безопасного использования".
Гибридная модель согласий (лечение и наука - по умолчанию, коммерция - с активного согласия) набрала 53% голосов среди опрошенных
Руководитель направления Т1 ИИ (ИТ-холдинг Т1) Сергей Голицын считает, что с точки зрения ИТ такая модель реалистична, но ее нужно реализовывать как систему управления правами на данные: "У каждого набора должен быть понятный статус: для каких целей он может использоваться, есть ли отказ пациента, когда он зафиксирован и на какие сценарии распространяется. Технически это может быть единый реестр согласий и отказов, связанный с медицинскими информационными системами и личным кабинетом пациента. Отказ должен учитываться автоматически, чтобы при формировании датасета или запуске обучения система сама исключала данные, которые нельзя использовать. Главный риск заключается в размытой границе между научным и коммерческим использованием данных. Дополнительные сложности связаны с отзывом согласия после того, как данные уже были использованы, а также с вопросами доверия со стороны пациентов".
Директор по развитию бизнеса ООО "Айсиэл Сервисез" (ICL Services) Марина Кириленко пояснила, насколько с технической точки зрения такая модель реализуема: "Вопрос в том, насколько аккуратно ее спроектировать. Если делать это через бумажные согласия или разрозненные отметки в разных медицинских системах, модель не взлетит. В масштабе страны нужен единый цифровой реестр согласий и отказов. Пациент должен иметь возможность увидеть и изменить выбор в понятном интерфейсе - например, через личный кабинет или "Госуслуги".
Марина Кириленко считает, что фиксировать отказ должен не разработчик ИИ и не коммерческая компания - это должен делать доверенный оператор: "При этом важно фиксировать не только сам факт - "согласен" или "не согласен". Нужно понимать, на что именно согласился пациент: цель, категории данных, срок, канал получения, версия текста согласия. Обязательно должна быть история изменений - когда согласие дали, когда отозвали, кто и когда обращался к данным".
Марина Кириленко говорит, что главный риск - путаница между научным и коммерческим использованием: "На бумаге это выглядит просто, но в жизни исследование может быть научным по содержанию и при этом выполняться в интересах фармкомпании или разработчика ИИ. Такие случаи нужно заранее описывать, иначе появятся споры и недоверие. Еще один риск - отзыв согласия задним числом. Пациент отказался, а его данные уже вошли в обезличенный массив или использовались для обучения модели. Значит, нужны четкие правила: что происходит с уже подготовленными наборами, как исключать пациента из новых выгрузок и как подтверждать, что отказ учтен. На мой взгляд, гибридная модель сможет работать, но только если ее воспринимать не как юридическую формальность, а как полноценную централизованную ИТ-систему управления правами пациента на использование данных".
