Retour au feed
arXiv cs.AI·

Confidence Calibration in Large Language Models

Signal
72
Hype
18
En 3 lignesÉtude préenregistrée montrant que les LLM actuels sont surconfiants : leur confiance dépasse leur précision en moyenne. Cependant, un effet difficile-facile modère ce biais : surconfiance maximale sur tâches difficiles, sous-confiance sur tâches faciles. Introduction de LifeEval, benchmark d'évaluation de calibration.
Lire la source
Ton avis ?
ÉvaluationsBenchmarksRaisonnement

Résumé généré par Claude — vérifié par l'humain