arXiv cs.AI·28 mai 2026

Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking

Signal

Hype

En 3 lignesMéthode de suivi bayésien séquentiel (SBBT) pour estimer la fiabilité des traces de raisonnement LLM avant la réponse finale. Évalue P(y=1|o_{1:t}) sur MATH-500, GSM8K, AIME 2025, RIMO-N. Les scores scalaires améliorent la calibration (Brier), tandis que les signaux structurés gagnent +0.110 AUROC en mathématiques difficiles.

Lire la source

Ton avis ?

Raisonnement Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking

Autres angles sur ce sujet