Retour au feed
arXiv cs.CL·

Human-Alignment, Calibration, and Activation Patterns in Large Language Model Uncertainty

Signal
72
Hype
15
En 3 lignesÉtude de l'alignement entre l'incertitude des LLM et celle humaine via analyse comportementale et des patterns d'activation internes. Les auteurs mesurent calibration et alignement sur datasets multi-choix et rappel factuel, évaluant l'impact du fine-tuning d'instruction.
Lire la source
Ton avis ?
ÉvaluationsAlignementSécurité IA

Résumé généré par Claude — vérifié par l'humain