arXiv cs.CL·21 mai 2026

Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

Signal

Hype

En 3 lignesÉtude de 6 233 MedGPTs et 10 modèles open-source déployés sur le web. 25-30% présentent une faible précision factuelle, 33.6-54.3% violent les seuils opérationnels, 57% des modèles avec Actions manquent de divulgations de confidentialité. Les auteurs introduisent MedGPT-HEval pour détecter les hallucinations et publient HAA-MedGPT, un dataset structuré.

Lire la source

Ton avis ?

Sécurité IA Alignement Évaluations Benchmarks Régulation

Résumé généré par Claude — vérifié par l'humain

Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

Autres angles sur ce sujet