Confidence Calibration in Large Language Models
Signal
72
Hype
18
En 3 lignesÉtude préenregistrée montrant que les LLM actuels sont surconfiants : leur confiance dépasse leur précision en moyenne. Cependant, un effet difficile-facile modère ce biais : surconfiance maximale sur tâches difficiles, sous-confiance sur tâches faciles. Introduction de LifeEval, benchmark d'évaluation de calibration.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain