Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking
Signal
72
Hype
18
En 3 lignesMéthode de suivi bayésien séquentiel (SBBT) pour estimer la fiabilité des traces de raisonnement LLM avant la réponse finale. Évalue P(y=1|o_{1:t}) sur MATH-500, GSM8K, AIME 2025, RIMO-N. Les scores scalaires améliorent la calibration (Brier), tandis que les signaux structurés gagnent +0.110 AUROC en mathématiques difficiles.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain