Retour au feed
arXiv cs.CL·

CacheRL:Multi-Turn Tool-Calling Agents via Cached Rollouts and Hybrid Reward

Signal
82
Hype
25
En 3 lignesCacheRL entraîne des petits modèles d'agents (Qwen3-4B-Thinking) atteignant 92% de précision sur tâches multi-étapes avec appels d'outils, soit 100× moins de calcul que GPT-5 (94%). Trois innovations : pipeline de trajectoires avec traces de raisonnement LLM, cache fuzzy trois niveaux éliminant exécutions live, récompenses adaptées au cache. SFT + GRPO améliorent la récompense de validation de 0,43 à 0,78.
Lire la source
Ton avis ?
Agents IAReinforcement learningRaisonnementFine-tuningBenchmarks

Résumé généré par Claude — vérifié par l'humain