arXiv cs.CL·25 mai 2026

When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening

Signal

Hype

En 3 lignesBenchmark SCID de 555 entretiens semi-structurés évalue 5 LLMs (GPT-4.1 Mini, GPT-5 Mini) sur dépistage psychiatrique (anxiété, dépression, PTSD). Précision 0.49–0.86, MCC 0.16–0.38. Les faux négatifs révèlent que les modèles sous-pondèrent les symptômes face à un fonctionnement préservé ou un soutien social, nécessitant validation clinique avant déploiement.

Lire la source

Ton avis ?

Benchmarks GPT Sécurité IA Évaluations

Résumé généré par Claude — vérifié par l'humain

When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening

Autres angles sur ce sujet