Enhancing Table Reasoning with Deterministic Table-State Rewards
Signal
78
Hype
15
En 3 lignesTABROUGE, une métrique de récompense déterministe basée sur la plus longue sous-séquence commune, améliore le raisonnement tabulaire des LLM sans entraînement. RE-TAB, framework plug-and-play utilisant TABROUGE, gagne 26,7 pp sur six backbones et trois benchmarks, réduisant les échantillons de test-time scaling de 33%.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain