Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward
Signal
75
Hype
25
En 3 lignesDecomposeR, un framework d'IA pour la recherche approfondie, entraîne un modèle Qwen3-8B via deux étapes de renforcement : planification (graphes acycliques typés) puis exécution. Amélioration de 5,1-8,0 points sur benchmarks long-form grâce à une meilleure décomposition des requêtes et synthèse.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain