Retour au feed
arXiv cs.AI·

Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

Signal
75
Hype
25
En 3 lignesDecomposeR, un framework d'IA pour la recherche approfondie, entraîne un modèle Qwen3-8B via deux étapes de renforcement : planification (graphes acycliques typés) puis exécution. Amélioration de 5,1-8,0 points sur benchmarks long-form grâce à une meilleure décomposition des requêtes et synthèse.
Lire la source
Ton avis ?
QwenReinforcement learningRaisonnementRAGBenchmarks

Résumé généré par Claude — vérifié par l'humain