ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling
Signal
78
Hype
25
En 3 lignesARBITER corrige les défaillances du vote majoritaire en test-time sampling. Les trajectoires de raisonnement se concentrent en clusters (bassins) stables mais pas nécessairement corrects. ARBITER utilise les états cachés et preuves du modèle pour ajouter des preuves conservatives au consensus, récupérant ~22% de l'écart oracle sur Llama-3.1-8B MMLU-HS-Math (78%→82%).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain