Retour au feed
arXiv cs.LG·

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

Signal
78
Hype
25
En 3 lignesARBITER corrige les défaillances du vote majoritaire en test-time sampling. Les trajectoires de raisonnement se concentrent en clusters (bassins) stables mais pas nécessairement corrects. ARBITER utilise les états cachés et preuves du modèle pour ajouter des preuves conservatives au consensus, récupérant ~22% de l'écart oracle sur Llama-3.1-8B MMLU-HS-Math (78%→82%).
Lire la source
Ton avis ?
RaisonnementÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain