DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling
Signal
72
Hype
18
En 3 lignesDecoupleSearch découple planification et recherche dans les systèmes RAG agentic via deux modèles de valeur distincts. Un arbre de raisonnement est construit avec Monte Carlo Tree Search pour évaluer chaque étape. La Hierarchical Beam Search affine itérativement les candidats de planification et recherche lors de l'inférence.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain