Retour au feed
arXiv cs.CL·

AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making

Signal
78
Hype
15
En 3 lignesÉtude factorial sur 4 LLMs open-source évaluant des décisions cliniques en diabète type 2. Les LLMs utilisés comme évaluateurs donnent des scores 74–78 points en protocole sans rubrique vs 7.69–49.64 points avec rubrique ancrée. La rubrique amplifie la discrimination entre modèles (facteur 1.76–5.10) et révèle variations comportementales masquées sans rubrique.
Lire la source
Ton avis ?
ÉvaluationsBenchmarksSécurité IAAlignement

Résumé généré par Claude — vérifié par l'humain