© ComNews
07.10.2020

Федеральные (общероссийские) датасеты, которые будут сформированы экспертами Центра диагностики и телемедицины, необходимы для проведения объективной проверки сервисов для лучевой диагностики на основе технологий искусственного интеллекта. В начале проекта будут собраны компьютерные томограммы и рентгенограммы пациентов с признаками коронавирусной инфекции (COVID-19) из разных регионов Российской Федерации

Эксперты Центра диагностики и телемедицины приступили к формированию уникальной общероссийской базы данных снимков лучевой диагностики. Сбор данных осуществляется в рамках масштабной программы по развитию технологий искусственного интеллекта в медицине, частью которой является московский эксперимент по компьютерному зрению в лучевой диагностике. Фактически будут сформированы эталонные датасеты, с помощью которых специалисты здравоохранения смогут оценивать корректность и точность работы сервисов искусственного интеллекта по выявлению патологий в исследуемых областях.

"Во всем мире создаются тысячи медицинских сервисов искусственного интеллекта. Перед запуском необходимо протестировать их работу, то есть проверить, насколько они адаптированы для практического здравоохранения. Им нужна "песочница" это цифровое пространство или база данных, на которых будут испытаны новые технологии. Как показывает практика, новые сервисы искусственного интеллекта анализируют изображения правильно на 70–80 %. С помощью датасета можно понять, преодолевает ли требуемый порог качества сервис, чтобы быть полезным и востребованным врачами, готов ли к практическому внедрению в медицинских организациях",пояснил главный специалист по лучевой и инструментальной диагностике Москвы, директор Центра диагностики и телемедицины Сергей Морозов.

К участию в формировании федерального датасета приглашаются врачи-рентгенологи со всей России. Платформа для загрузки данных имеет простую и понятную структуру. На сайте проекта врачам нужно ознакомиться с условиями использования платформы. В опросный листвнести информацию о статусе ПЦР-теста пациента (положительный или отрицательный), описать клиническую картину при проведении диагностики, заполнить информацию для обратной связи и загрузить обезличенное медицинское изображение.

"Сейчас приступаем к подготовке репрезентативного медицинского датасета пациентов с признаками COVID-19. Таким образом, будет сформирован всероссийский эталонный датасет, в котором будут представлены не только медицинские изображения лучевых исследований пациентов с признаками коронавирусной инфекции, но и сопровождающая клиническая информация. Последнее необходимо для повышения точности постановки дифференциального диагноза и прогнозирования течения заболевания системами искусственного интеллекта. В дальнейшем направление по сбору датасетов может быть расширено, и начнется объединение медицинских изображений пациентов с диагностированными злокачественными образованиями в том числе в головном мозге, молочных железах, предстательной железе, легких и других органах. Общей целью создания данных датасетов является тестирование и повышение точности систем на основе искусственного интеллекта по выявлению и характеризации данных социально-значимых заболеваний", — отметила руководитель сектора медицинской информации, радиомики и радиогеномики Центра диагностики и телемедицины Анна Андрейченко.

Процесс подготовки датасета является трудоемким и кропотливым, а качество итогового продукта будет определять его способность к объективной оценке тестируемого на его основе сервиса искусственного интеллекта.

"Для каждого элемента базы данных будет проводиться классификация по группам "компьютерная томограмма" и "рентгенограмма", по наличию или отсутствию информации о клинической картине, результатов анализа, по техническим характеристикам томографов, например толщине срезов и размерам матрицы,— В итоговый датасет войдут исследования КТ со срезами толщиной не более 1 мм, так как необходимо создать унифицированный набор данных. Но более точные характеристики датасета будут известны после обработки всех полученных данных", объяснил руководитель проекта в секторе медицинской информации, радиомики и радиогеномики Центра диагностики и телемедицины Николай Павлов.

Обязательным условием предоставления данных является их полная и безвозвратная деперсонализация (обезличивание), то есть полное исключение каких-либо персональных сведений о пациенте. Обезличивание медицинских изображений может проводиться с помощью встроенного программного обеспечения в аппараты КТ и РГ. Обычно такая опция используется для передачи данных в другие медицинские центры. Существуют также и специальные программы просмотрщики медицинских изображений с функцией удаления персональных данных. Рентгенологи тоже их используют в работе. Кроме того, со всеми специалистами, кто загружает данные, эксперты держат обратную связь, при необходимости инструктируют и разъясняют методику загрузки данных.

В пандемию исследователи Центра диагностики и телемедицины собрали самую большую в мире базу данных пациентов с признаками коронавирусной пневмонии. Датасет кропотливо нарабатывался из тысячи медицинских изображений производилась выборка по определенным критериям для систем искусственного интеллекта и выполнялась разметка к снимкам прикреплялась определенная техническая информация. База собиралась в сжатые сроки, что было вызвано необходимостью автоматизации процесса распознавания патологических изменений в легких при коронавирусной инфекции. На основе датасета, представленного в открытом доступе, разработчики всего мира могли "дообучать" и тестировать алгоритмы своих сервисов. С начала пандемии его скачали более 500 российских и зарубежных разработчиков и программистов. Центр диагностики и телемедицины принял участие в борьбе с COVID-19 в мировом масштабе в сфере искусственного интеллекта.