Retour au feed
arXiv cs.LG·

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Signal
78
Hype
25
En 3 lignesGROW adapte GRPO (Group Relative Policy Optimization) aux agents VLM en décomposant les trajectoires en échantillons état-action pour éviter les contextes trop longs. Testé sur 800+ tâches Minecraft, la méthode atteint SOTA en RL multi-tour pour agents open-world.
Lire la source
Ton avis ?
Reinforcement learningVisionAgents IAPapers

Résumé généré par Claude — vérifié par l'humain