Retour au feed
arXiv cs.AI·

Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking

Signal
72
Hype
18
En 3 lignesMéthode de suivi bayésien séquentiel (SBBT) pour estimer la fiabilité des traces de raisonnement LLM avant la réponse finale. Évalue P(y=1|o_{1:t}) sur MATH-500, GSM8K, AIME 2025, RIMO-N. Les scores scalaires améliorent la calibration (Brier), tandis que les signaux structurés gagnent +0.110 AUROC en mathématiques difficiles.
Lire la source
Ton avis ?
RaisonnementÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain