arXiv cs.AI·19 mai 2026

Enhancing Table Reasoning with Deterministic Table-State Rewards

Signal

Hype

En 3 lignesTABROUGE, une métrique de récompense déterministe basée sur la plus longue sous-séquence commune, améliore le raisonnement tabulaire des LLM sans entraînement. RE-TAB, framework plug-and-play utilisant TABROUGE, gagne 26,7 pp sur six backbones et trois benchmarks, réduisant les échantillons de test-time scaling de 33%.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Enhancing Table Reasoning with Deterministic Table-State Rewards

Autres angles sur ce sujet