Top.Mail.Ru
Понедельник, 16 февраля, 2026

ИИ диагностика: большие языковые модели часто ошибаются при распознавании депрессии

Новое исследование AIRI и российских институтов показывает: большие языковые модели лучше других алгоритмов определяют признаки депрессии в текстах, но их объяснения остаются недостаточно точными для клинического применения.

Время на прочтение: 2 мин

Также по теме

Российские исследователи впервые провели масштабную оценку того, насколько точно современные алгоритмы — от классических моделей машинного обучения до больших языковых моделей (LLM) — способны распознавать признаки депрессии в русскоязычных текстах. Как сообщила пресс-служба Института искусственного интеллекта AIRI, LLM действительно показывают лучшие результаты на реальных, «шумных» данных, однако часто допускают ошибки и некорректные интерпретации, что пока ограничивает их медицинскую применимость.

По словам научного сотрудника группы «Обучение на слабо размеченных данных» AIRI Глеба Кузьмина, исследование демонстрирует высокий потенциал LLM в качестве вспомогательных скрининговых инструментов, однако до внедрения в клиническую практику необходимо улучшить интерпретируемость моделей и расширить клиническую базу. Он отметил, что качество объяснений, генерируемых алгоритмами, остаётся одной из ключевых проблем.

Исследование проводилось совместно учёными AIRI, ФИЦ ИУ РАН, ИСП РАН, МФТИ, РУДН и MBZUAI. Команда подготовила корпус текстов, включающий 500 коротких эссе, написанных как здоровыми добровольцами, так и людьми с клинически подтверждённой депрессией, а также выборку русскоязычных сообщений в социальных сетях, опубликованных в период пандемии и позднее. Все данные были специально размечены и использованы для обучения и оценки различных моделей.

Результаты показали, что большие языковые модели уверенно опережают трансформеры и классические алгоритмы на «гетерагенных» данных — где тексты сильно варьируются по стилю, жанру и длине. Однако при использовании клинически валидированных датасетов разрыв между моделями сокращается: традиционные подходы и современные трансформерные архитектуры демонстрируют сопоставимую точность.

Отдельное внимание учёные уделили тому, насколько корректно ИИ объясняет свои выводы. Команда клинических психологов обнаружила, что формируемые LLM объяснения в среднем содержат более двух ошибок: от тавтологий и ложных причинно-следственных связей до неправильных представлений о природе депрессии. В ряде случаев модели некорректно приписывали пользователям симптомы либо обобщали клинические понятия.

Исследователи подчеркивают, что эти недостатки делают внедрение LLM в реальную клиническую практику преждевременным. В то же время работа показала, что при доработке объяснительных модулей и расширении обучающих данных ИИ может стать важным инструментом раннего выявления рисков и поддержки специалистов.

spot_img

Популярные

ЧИТАЙТЕ ТАКЖЕ