arXiv cs.CL·3 juin 2026

AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making

Signal

Hype

En 3 lignesÉtude factorial sur 4 LLMs open-source évaluant des décisions cliniques en diabète type 2. Les LLMs utilisés comme évaluateurs donnent des scores 74–78 points en protocole sans rubrique vs 7.69–49.64 points avec rubrique ancrée. La rubrique amplifie la discrimination entre modèles (facteur 1.76–5.10) et révèle variations comportementales masquées sans rubrique.

Lire la source

Ton avis ?

Évaluations Benchmarks Sécurité IA Alignement

Résumé généré par Claude — vérifié par l'humain

AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making

Autres angles sur ce sujet