© ComNews
11.11.2025

Новый датасет и алгоритмы помогут врачам точно кодировать диагнозы и повысить качество медицинской статистики в России.

Ученые Института AIRI совместно с Центром практического искусственного интеллекта Сбера и Центром индустрии здоровья Сбербанка создали инструменты для автоматизации выставления кодов Международной классификации болезней (МКБ). МКБ-коды обеспечивают единый стандарт для регистрации, анализа и обмена медицинскими данными, упрощают оформление документов, служат основой для научных исследований.

В России врачи устанавливают МКБ-коды для диагнозов пациентов вручную. Основной фокус врача в медицинской системе нашей страны - точная формулировка диагноза, характерная для конкретного пациента. МКБ-кодирование выполняет сопутствующую функцию и, следовательно, у врачей остается меньше времени для того, чтобы в течение приема сверяться со справочниками. В результате в кодировании могут содержаться неточности, например, расставленные по памяти близкие друг к другу коды одного и того же заболевания, только один - с осложнениями, а другой без.

Чтобы упростить и уточнить кодирование, ученые создали тщательно размеченный датасет с МКБ-кодами. Для оценки качества методов автоматизации сопоставления диагнозов и кодов, сравнили различные подходы к этой задаче, а также выяснили, улучшают ли коды, подобранные алгоритмами, качество метрик, необходимых для решения задач по созданию медицинских ИИ-инструментов.

Первый этап проекта был посвящен подготовке датасета с эталонной разметкой. Для этого 15 врачей разной квалификации, от ординаторов до кандидатов наук, разделили диагнозы на отдельные медицинские сущности и присвоили каждой код по МКБ. Полученный датасет был поделен на обучающую, валидационную и тестовую части. На втором этапе ученые сравнили несколько подходов к автоматическому кодированию и выявили лучший. На третьем - обучили специализированную медицинскую модель на двух вариантах кодов: сначала на тех, которые выставляли врачи, затем на установленных системой. Закрытый тестовый датасет показал, что модель, обученная на автоматически размеченных кодах, значительно лучше справляется с диагностическими задачами, чем модель, обученная на кодах врачей.

Важно, что инструмент не подменяет экспертизу врача и не является диагностическим помощником - он автоматизирует перевод уже сформулированного врачом диагноза в корректный код МКБ. Внедрение такой системы поможет снять лишнюю административную нагрузку с врачей, будет способствовать составлению объективной статистики и развитию медицинских информационных систем. Новый датасет опубликован в открытом доступе, а полученные результаты и инструменты могут быть масштабированы и интегрированы в электронные медицинские системы для практической помощи врачам и аналитикам.

"Выставление МКБ-кодов, по сути, административная работа, заниматься которой врач не обязан. Мы показали, что алгоритмы на корректном датасете легко справляются с этой задачей, соответственно, снимают избыточную нагрузку с медиков и могут стать точкой роста для информатизации и объективизации отечественной медицины", - подчеркнул старший научный сотрудник группы "Мультимодальные архитектуры ИИ" лаборатории "Сильный ИИ в медицине" Института AIRI Александр Нестеров.

"Уже на первом этапе стало ясно: легковесная модель в несколько сотен миллионов параметров не просто может конкурировать, но заметно опережает большие языковые модели. Этот факт имеет решающее значение для будущих внедрений в реальные системы, обеспечивая эффективность вычислений и стоимость инференса", - отметила руководитель группы "Прикладное NLP" Института AIRI Елена Тутубалина.

Новости из связанных рубрик