Retour au feed
arXiv cs.CL·

When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening

Signal
72
Hype
25
En 3 lignesBenchmark SCID de 555 entretiens semi-structurés évalue 5 LLMs (GPT-4.1 Mini, GPT-5 Mini) sur dépistage psychiatrique (anxiété, dépression, PTSD). Précision 0.49–0.86, MCC 0.16–0.38. Les faux négatifs révèlent que les modèles sous-pondèrent les symptômes face à un fonctionnement préservé ou un soutien social, nécessitant validation clinique avant déploiement.
Lire la source
Ton avis ?
BenchmarksGPTSécurité IAÉvaluations

Résumé généré par Claude — vérifié par l'humain