ИИ диагностика: большие языковые модели часто ошибаются при распознавании депрессии

Российские исследователи впервые провели масштабную оценку того, насколько точно современные алгоритмы — от классических моделей машинного обучения до больших языковых моделей (LLM) — способны распознавать признаки депрессии в русскоязычных текстах. Как сообщила пресс-служба Института искусственного интеллекта AIRI, LLM действительно показывают лучшие результаты на реальных, «шумных» данных, однако часто допускают ошибки и некорректные интерпретации, что пока ограничивает их медицинскую применимость.

По словам научного сотрудника группы «Обучение на слабо размеченных данных» AIRI Глеба Кузьмина, исследование демонстрирует высокий потенциал LLM в качестве вспомогательных скрининговых инструментов, однако до внедрения в клиническую практику необходимо улучшить интерпретируемость моделей и расширить клиническую базу. Он отметил, что качество объяснений, генерируемых алгоритмами, остаётся одной из ключевых проблем.

Исследование проводилось совместно учёными AIRI, ФИЦ ИУ РАН, ИСП РАН, МФТИ, РУДН и MBZUAI. Команда подготовила корпус текстов, включающий 500 коротких эссе, написанных как здоровыми добровольцами, так и людьми с клинически подтверждённой депрессией, а также выборку русскоязычных сообщений в социальных сетях, опубликованных в период пандемии и позднее. Все данные были специально размечены и использованы для обучения и оценки различных моделей.

Результаты показали, что большие языковые модели уверенно опережают трансформеры и классические алгоритмы на «гетерагенных» данных — где тексты сильно варьируются по стилю, жанру и длине. Однако при использовании клинически валидированных датасетов разрыв между моделями сокращается: традиционные подходы и современные трансформерные архитектуры демонстрируют сопоставимую точность.

Отдельное внимание учёные уделили тому, насколько корректно ИИ объясняет свои выводы. Команда клинических психологов обнаружила, что формируемые LLM объяснения в среднем содержат более двух ошибок: от тавтологий и ложных причинно-следственных связей до неправильных представлений о природе депрессии. В ряде случаев модели некорректно приписывали пользователям симптомы либо обобщали клинические понятия.

Исследователи подчеркивают, что эти недостатки делают внедрение LLM в реальную клиническую практику преждевременным. В то же время работа показала, что при доработке объяснительных модулей и расширении обучающих данных ИИ может стать важным инструментом раннего выявления рисков и поддержки специалистов.

ИИ диагностика: большие языковые модели часто ошибаются при распознавании депрессии

Также по теме

Кожа как индикатор воспаления: японские учёные превратили стволовые клетки в живые биосенсоры

Сеченовский университет зарегистрировал ИИ-систему для массового скрининга сердечной недостаточности

Чат-бот на доверии: подростки всё чаще выбирают ИИ вместо психотерапии

Популярные

Eli Lilly объявила итоги III фазы КИ перорального препарата для лечения диабета и ожирения

Браслет против тремора: как ИИ помогает вернуть контроль над движениями

19% крупнейших российских онлайн-магазинов — аптеки

FDA и EMA согласовали принципы применения ИИ в разработке лекарств

Результаты применения технологии BrainQ у пациентов, перенесших инсульт

ЧИТАЙТЕ ТАКЖЕ

FDA и EMA согласовали принципы применения ИИ в разработке лекарств

ИИ как инфраструктура: NVIDIA расширяет платформу BioNeMo для ускорения разработки лекарств

ИИ-платформы идут в медицину: Anthropic представила функции для пациентов