Retour au feed
arXiv cs.CL·

SEAL: Synergistic Co-Evolution of Agents and Learning Environments

Signal
78
Hype
25
En 3 lignesSEAL est un framework de co-évolution fermée pour agents LLM utilisant des outils. Il collecte des trajectoires vérifiables, diagnostique les échecs au niveau des tours, et utilise ces signaux pour adapter simultanément l'environnement d'apprentissage et la politique de l'agent. Avec 400 exemples, SEAL gagne +8.25 à +26.25 points sur trois backbones et transfère bien hors-distribution.
Lire la source
Ton avis ?
Agents IAReinforcement learningRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain