Российские исследователи создали систему автоматического кодирования диагнозов по международной классификации болезней
Новый датасет и алгоритмы помогут врачам точно кодировать диагнозы и повысить качество медицинской статистики в России.
Ученые Института AIRI совместно с Центром практического искусственного интеллекта Сбера и Центром индустрии здоровья Сбербанка создали инструменты для автоматизации выставления кодов Международной классификации болезней (МКБ). МКБ-коды обеспечивают единый стандарт для регистрации, анализа и обмена медицинскими данными, упрощают оформление документов, служат основой для научных исследований.
В России врачи устанавливают МКБ-коды для диагнозов пациентов вручную. Основной фокус врача в медицинской системе нашей страны - точная формулировка диагноза, характерная для конкретного пациента. МКБ-кодирование выполняет сопутствующую функцию и, следовательно, у врачей остается меньше времени для того, чтобы в течение приема сверяться со справочниками. В результате в кодировании могут содержаться неточности, например, расставленные по памяти близкие друг к другу коды одного и того же заболевания, только один - с осложнениями, а другой без.
Чтобы упростить и уточнить кодирование, ученые создали тщательно размеченный датасет с МКБ-кодами. Для оценки качества методов автоматизации сопоставления диагнозов и кодов, сравнили различные подходы к этой задаче, а также выяснили, улучшают ли коды, подобранные алгоритмами, качество метрик, необходимых для решения задач по созданию медицинских ИИ-инструментов.
Первый этап проекта был посвящен подготовке датасета с эталонной разметкой. Для этого 15 врачей разной квалификации, от ординаторов до кандидатов наук, разделили диагнозы на отдельные медицинские сущности и присвоили каждой код по МКБ. Полученный датасет был поделен на обучающую, валидационную и тестовую части. На втором этапе ученые сравнили несколько подходов к автоматическому кодированию и выявили лучший. На третьем - обучили специализированную медицинскую модель на двух вариантах кодов: сначала на тех, которые выставляли врачи, затем на установленных системой. Закрытый тестовый датасет показал, что модель, обученная на автоматически размеченных кодах, значительно лучше справляется с диагностическими задачами, чем модель, обученная на кодах врачей.
Важно, что инструмент не подменяет экспертизу врача и не является диагностическим помощником - он автоматизирует перевод уже сформулированного врачом диагноза в корректный код МКБ. Внедрение такой системы поможет снять лишнюю административную нагрузку с врачей, будет способствовать составлению объективной статистики и развитию медицинских информационных систем. Новый датасет опубликован в открытом доступе, а полученные результаты и инструменты могут быть масштабированы и интегрированы в электронные медицинские системы для практической помощи врачам и аналитикам.
"Выставление МКБ-кодов, по сути, административная работа, заниматься которой врач не обязан. Мы показали, что алгоритмы на корректном датасете легко справляются с этой задачей, соответственно, снимают избыточную нагрузку с медиков и могут стать точкой роста для информатизации и объективизации отечественной медицины", - подчеркнул старший научный сотрудник группы "Мультимодальные архитектуры ИИ" лаборатории "Сильный ИИ в медицине" Института AIRI Александр Нестеров.
"Уже на первом этапе стало ясно: легковесная модель в несколько сотен миллионов параметров не просто может конкурировать, но заметно опережает большие языковые модели. Этот факт имеет решающее значение для будущих внедрений в реальные системы, обеспечивая эффективность вычислений и стоимость инференса", - отметила руководитель группы "Прикладное NLP" Института AIRI Елена Тутубалина.
