arXiv cs.CL·15 juin 2026

CacheRL:Multi-Turn Tool-Calling Agents via Cached Rollouts and Hybrid Reward

Signal

Hype

En 3 lignesCacheRL entraîne des petits modèles d'agents (Qwen3-4B-Thinking) atteignant 92% de précision sur tâches multi-étapes avec appels d'outils, soit 100× moins de calcul que GPT-5 (94%). Trois innovations : pipeline de trajectoires avec traces de raisonnement LLM, cache fuzzy trois niveaux éliminant exécutions live, récompenses adaptées au cache. SFT + GRPO améliorent la récompense de validation de 0,43 à 0,78.

Lire la source

Ton avis ?

Agents IA Reinforcement learning Raisonnement Fine-tuning Benchmarks

Résumé généré par Claude — vérifié par l'humain

CacheRL:Multi-Turn Tool-Calling Agents via Cached Rollouts and Hybrid Reward

Autres angles sur ce sujet