arXiv cs.AI·19 mai 2026

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning

Signal

Hype

En 3 lignesBPO, un framework en trois étapes (bootstrapping, extrapolation, refinement), crée une boucle d'auto-amélioration pour entraîner des modèles de raisonnement robustes en planification long-horizon avec récompenses éparses. Utilise des quaternions de planification, fusion chain-of-thought long-court, et curriculum learning stratifié. SOTA sur ALFWorld, ScienceWorld, WebShop avec efficacité token significative.

Lire la source

Ton avis ?

Raisonnement Agents IA Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning

Autres angles sur ce sujet