EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning
EvoTrainer co-évolue les politiques LLM et les harnesses d'entraînement via feedback empirique pour l'RL agentic autonome. Testé sur raisonnement mathématique, génération de code compétitif et ingénierie logicielle, le système égale ou surpasse les références RL conçues manuellement, avec gains majeurs sur les tâches SWE longue horizon.