Российские исследователи впервые провели масштабную оценку того, насколько точно современные алгоритмы — от классических моделей машинного обучения до больших языковых моделей (LLM) — способны распознавать признаки депрессии в русскоязычных текстах. Как сообщила пресс-служба Института искусственного интеллекта AIRI, LLM действительно показывают лучшие результаты на реальных, «шумных» данных, однако часто допускают ошибки и некорректные интерпретации, что пока ограничивает их медицинскую применимость.
По словам научного сотрудника группы «Обучение на слабо размеченных данных» AIRI Глеба Кузьмина, исследование демонстрирует высокий потенциал LLM в качестве вспомогательных скрининговых инструментов, однако до внедрения в клиническую практику необходимо улучшить интерпретируемость моделей и расширить клиническую базу. Он отметил, что качество объяснений, генерируемых алгоритмами, остаётся одной из ключевых проблем.
Исследование проводилось совместно учёными AIRI, ФИЦ ИУ РАН, ИСП РАН, МФТИ, РУДН и MBZUAI. Команда подготовила корпус текстов, включающий 500 коротких эссе, написанных как здоровыми добровольцами, так и людьми с клинически подтверждённой депрессией, а также выборку русскоязычных сообщений в социальных сетях, опубликованных в период пандемии и позднее. Все данные были специально размечены и использованы для обучения и оценки различных моделей.
Результаты показали, что большие языковые модели уверенно опережают трансформеры и классические алгоритмы на «гетерагенных» данных — где тексты сильно варьируются по стилю, жанру и длине. Однако при использовании клинически валидированных датасетов разрыв между моделями сокращается: традиционные подходы и современные трансформерные архитектуры демонстрируют сопоставимую точность.
Отдельное внимание учёные уделили тому, насколько корректно ИИ объясняет свои выводы. Команда клинических психологов обнаружила, что формируемые LLM объяснения в среднем содержат более двух ошибок: от тавтологий и ложных причинно-следственных связей до неправильных представлений о природе депрессии. В ряде случаев модели некорректно приписывали пользователям симптомы либо обобщали клинические понятия.
Исследователи подчеркивают, что эти недостатки делают внедрение LLM в реальную клиническую практику преждевременным. В то же время работа показала, что при доработке объяснительных модулей и расширении обучающих данных ИИ может стать важным инструментом раннего выявления рисков и поддержки специалистов.


