arXiv cs.CL·19 mai 2026

Implicit Hierarchical GRPO: Decoupling Tool Invocation from Execution for Tool-Integrated Mathematical Reasoning

Signal

Hype

En 3 lignesNouvel algorithme IH-GRPO découplant l'invocation d'outils de leur exécution pour améliorer le raisonnement mathématique des LLM. Gains de 1.87–2.53% sur benchmarks mathématiques avec Qwen3 (1.7B–8B). Code disponible.

Lire la source

Ton avis ?

Raisonnement Agents IA Reinforcement learning Benchmarks Qwen

Résumé généré par Claude — vérifié par l'humain

Implicit Hierarchical GRPO: Decoupling Tool Invocation from Execution for Tool-Integrated Mathematical Reasoning

Autres angles sur ce sujet