Retour au feed
Reddit r/MachineLearning·

Making LLMs tell you how confident they really are through probe-targeted fine tuning.[R]

Signal
82
Hype
18
En 3 lignesRecherche sur le fine-tuning ciblé par probe (LoRA) pour calibrer la confiance verbale des LLM. Les modèles détectent internement les réponses correctes (0.76–0.88 AUROC) mais affichent 99% de confiance en sortie. Fine-tuning sur 8 modèles (7B–70B) avec activation patching causal (ρ=0.976). Code et pré-enregistrement disponibles.
Lire la source
Ton avis ?
Fine-tuningRaisonnementAlignementÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain