Retour au feed
arXiv cs.CL·

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

Signal
78
Hype
25
En 3 lignesEnvFactory automatise la création d'environnements exécutables et la synthèse de trajectoires multi-tours pour l'entraînement d'agents RL. Avec 85 environnements vérifiés sur 7 domaines, le framework génère 2 575 trajectoires SFT/RL et améliore les modèles Qwen3 de +15% sur BFCLv3, +8.6% sur MCP-Atlas et +6% sur conversational benchmarks.
Lire la source
Ton avis ?
Agents IAReinforcement learningGénération de codeBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain