Ученые поработали с языковыми моделями
Ученые Института AIRI, ФИЦ ИУ РАН, ИСП РАН, МФТИ, РУДН и MBZUAI сравнили, насколько точно разные подходы автоматически определяют признаки депрессии и тревожности в текстах на русском языке. Для работы были выбраны классические алгоритмы машинного обучения, трансформеры и большие языковые модели (LLM). В перспективе они могут быть особенно полезны в медицинских приложениях.
Тексты для исследования специалисты брали из закрытых датасетов, включая как клинически подтвержденные случаи, так и данные, основанные на опросниках. Оценка эффективности проводилась по F1-score на контрольной выборке, а также с привлечением клинических психологов для анализа объяснений, сгенерированных LLM. Результаты показали: LLM значительно превосходят традиционные методы, особенно на небольших и "шумных" наборах данных, где тексты сильно различаются по длине и жанру. Но модели с психолингвистическими признаками и трансформеры, обученные на клинически валидированных данных, демонстрируют сопоставимую точность с LLM.
Исследование также выявило важные ограничения современных LLM. Объяснения для выявления депрессии, сформулированные лучшей языковой моделью, были оценены клиническими психологами лишь на 2.84 балла из 5. В среднем каждое из объяснений содержало более двух ошибок, в том числе тавтологию, ложные выводы и искажение медицинских представлений о депрессии. Теоретически такие модели уже могут выступать полезным инструментом для предварительного скрининга, но они не призваны и не могут заменить врачей.
В ближайшие годы развитие LLM и рост доступности качественных, валидированных данных позволят использовать такие инструменты все шире — как для автоматического выявления риска депрессии, так и для генерации качественных объяснений, подкрепленных клиническими рекомендациями. Но для внедрения моделей в здравоохранение необходимы дальнейшие исследования и серьезная доработка. "Наша работа показывает, что потенциал применения LLM в скрининговых или вспомогательных инструментах очень высок, но до внедрения в клиническую практику необходимо не только повысить интерпретируемость и качество объяснений, но и решить вопросы расширения клинической базы", — отметил Глеб Кузьмин, научный сотрудник группы "Обучение на слабо размеченных данных" Института AIRI.

