Retour au feed
arXiv cs.AI·

Enhancing Table Reasoning with Deterministic Table-State Rewards

Signal
78
Hype
15
En 3 lignesTABROUGE, une métrique de récompense déterministe basée sur la plus longue sous-séquence commune, améliore le raisonnement tabulaire des LLM sans entraînement. RE-TAB, framework plug-and-play utilisant TABROUGE, gagne 26,7 pp sur six backbones et trois benchmarks, réduisant les échantillons de test-time scaling de 33%.
Lire la source
Ton avis ?
RaisonnementReinforcement learningBenchmarks

Résumé généré par Claude — vérifié par l'humain