Retour au feed
arXiv cs.AI·

EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning

Signal
78
Hype
25
En 3 lignesEvoTrainer co-évolue les politiques LLM et les harnesses d'entraînement via feedback empirique pour l'RL agentic autonome. Testé sur raisonnement mathématique, génération de code compétitif et ingénierie logicielle, le système égale ou surpasse les références RL conçues manuellement, avec gains majeurs sur les tâches SWE longue horizon.
Lire la source
Ton avis ?
Agents IAReinforcement learningGénération de codeRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain