Retour au feed
arXiv cs.CL·

Implicit Hierarchical GRPO: Decoupling Tool Invocation from Execution for Tool-Integrated Mathematical Reasoning

Signal
75
Hype
25
En 3 lignesNouvel algorithme IH-GRPO découplant l'invocation d'outils de leur exécution pour améliorer le raisonnement mathématique des LLM. Gains de 1.87–2.53% sur benchmarks mathématiques avec Qwen3 (1.7B–8B). Code disponible.
Lire la source
Ton avis ?
RaisonnementAgents IAReinforcement learningBenchmarksQwen

Résumé généré par Claude — vérifié par l'humain