Retour au feed
arXiv cs.CL·

Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

Signal
78
Hype
25
En 3 lignesÉtude de 6 233 MedGPTs et 10 modèles open-source déployés sur le web. 25-30% présentent une faible précision factuelle, 33.6-54.3% violent les seuils opérationnels, 57% des modèles avec Actions manquent de divulgations de confidentialité. Les auteurs introduisent MedGPT-HEval pour détecter les hallucinations et publient HAA-MedGPT, un dataset structuré.
Lire la source
Ton avis ?
Sécurité IAAlignementÉvaluationsBenchmarksRégulation

Résumé généré par Claude — vérifié par l'humain