GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
Signal
78
Hype
25
En 3 lignesGROW adapte GRPO (Group Relative Policy Optimization) aux agents VLM en décomposant les trajectoires en échantillons état-action pour éviter les contextes trop longs. Testé sur 800+ tâches Minecraft, la méthode atteint SOTA en RL multi-tour pour agents open-world.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain