Reddit r/MachineLearning·29 mai 2026

Making LLMs tell you how confident they really are through probe-targeted fine tuning.[R]

Signal

Hype

En 3 lignesRecherche sur le fine-tuning ciblé par probe (LoRA) pour calibrer la confiance verbale des LLM. Les modèles détectent internement les réponses correctes (0.76–0.88 AUROC) mais affichent 99% de confiance en sortie. Fine-tuning sur 8 modèles (7B–70B) avec activation patching causal (ρ=0.976). Code et pré-enregistrement disponibles.

Lire la source

Ton avis ?

Fine-tuning Raisonnement Alignement Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

Making LLMs tell you how confident they really are through probe-targeted fine tuning.[R]

Autres angles sur ce sujet