SEAL: Synergistic Co-Evolution of Agents and Learning Environments
Signal
78
Hype
25
En 3 lignesSEAL est un framework de co-évolution fermée pour agents LLM utilisant des outils. Il collecte des trajectoires vérifiables, diagnostique les échecs au niveau des tours, et utilise ces signaux pour adapter simultanément l'environnement d'apprentissage et la politique de l'agent. Avec 400 exemples, SEAL gagne +8.25 à +26.25 points sur trois backbones et transfère bien hors-distribution.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain