arXiv cs.LG·21 mai 2026

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Signal

Hype

En 3 lignesGROW adapte GRPO (Group Relative Policy Optimization) aux agents VLM en décomposant les trajectoires en échantillons état-action pour éviter les contextes trop longs. Testé sur 800+ tâches Minecraft, la méthode atteint SOTA en RL multi-tour pour agents open-world.

Lire la source

Ton avis ?

Reinforcement learning Vision Agents IA Papers

Résumé généré par Claude — vérifié par l'humain

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Autres angles sur ce sujet