arXiv cs.AI·26 mai 2026

Confidence Calibration in Large Language Models

Signal

Hype

En 3 lignesÉtude préenregistrée montrant que les LLM actuels sont surconfiants : leur confiance dépasse leur précision en moyenne. Cependant, un effet difficile-facile modère ce biais : surconfiance maximale sur tâches difficiles, sous-confiance sur tâches faciles. Introduction de LifeEval, benchmark d'évaluation de calibration.

Lire la source

Ton avis ?

Évaluations Benchmarks Raisonnement

Résumé généré par Claude — vérifié par l'humain

Confidence Calibration in Large Language Models

Autres angles sur ce sujet