© ComNews
14.09.2018

Группа российских исследователей обучила нейронную сеть анализировать мнения пользователей соцсетей об эффектах лекарств.

Основной целью ученых было преодолеть терминологический разрыв между пациентами и профессионалами в области здравоохранения. В рамках исследования ученые на примерах базы данных на английском языке обучили нейронную сеть превращать текст, написанный на языке социальных сетей (например, "не могу заснуть всю ночь" или "слегка кружится голова"), в формальный медицинский язык (к примеру, "бессонница" и "головокружение" соответственно).

Такая задача выходит за рамки простого сопоставления естественных выражений с элементами словаря: проблема в том, что сообщения пользователей могут вообще не пересекаться с медицинскими терминами.

Социальные сети — практически неисчерпаемый источник мнений по широкому кругу вопросов. Люди пишут о своей работе, отношениях и, в том числе, жалуются на проблемы со здоровьем. По сути, социальные сети предоставляют огромные наборы данных мнений вместе с демографической информацией и другими данными о пользователе.

Хотя ученые часто используют интеллектуальный анализ текстов (text mining) в социальных сетях для перепрофилирования лекарств и генерации гипотез (первые работы по этой теме вышли в 2010 году), мало кто сопоставлял пользовательские фразы с профессиональными терминами. Задача сопоставления упомянутого пользователем заболевания с конкретным медицинским термином называется нормализацией медицинских концептов. Сложность в том, что профессиональная медицинская лексика редко совпадает с повседневной, которую используют люди в общении. Чтобы решить эту проблему, российские исследователи использовали последовательное обучение рекуррентных нейронных сетей и семантическое представление однословных и многословных выражений.

"В работе мы сфокусировались на мнениях пациентов о влиянии лекарств", — объясняет научный сотрудник лаборатории нейронных систем и глубокого обучения МФТИ Валентин Малых.

"Важность работы определяется постоянно растущей потребностью в анализе текстовых данных. Мы живем в условиях информационного взрыва, когда количество информации удваивается каждые несколько лет, и человек или даже коллектив людей уже не способен обработать все доступные данные. В нашем проекте используются методы анализа текстов и машинное обучение для извлечения полезной информации из доступных данных, как, например, в этом случае, где мы извлекали упоминания о побочных лекарственных реакциях из сообщений, которые люди пишут в социальных сетях", – добавляет старший научный сотрудник Лаборатории хемоинформатики и молекулярного моделирования Казанского федерального университета Елена Тутубалина.

По мнению авторов работы, непрерывное развитие и улучшение точности интеллектуального анализа текстов сообщений пациентов в социальных сетях окажет значительное влияние на изучение влияния лекарств на организм, повторное назначение лекарств и понимание лекарственных эффектов в контексте других факторов, таких как одновременный прием разных препаратов, диеты и образа жизни.

В исследовании принимали участие ученые Казанского федерального университета (КФУ), НИЦ "Курчатовский институт", Первого МГМУ им. И.М. Сеченова, Санкт-Петербургского отделения Математического института им. В. А. Стеклова РАН (ПОМИ РАН) и Московского физико-технического института (МФТИ).