Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning
Signal
78
Hype
25
En 3 lignesBPO, un framework en trois étapes (bootstrapping, extrapolation, refinement), crée une boucle d'auto-amélioration pour entraîner des modèles de raisonnement robustes en planification long-horizon avec récompenses éparses. Utilise des quaternions de planification, fusion chain-of-thought long-court, et curriculum learning stratifié. SOTA sur ALFWorld, ScienceWorld, WebShop avec efficacité token significative.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain