OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval
Signal
75
Hype
25
En 3 lignesOPERA est une architecture de récupération augmentée par génération (RAG) qui couple planification et exécution via apprentissage par renforcement. Un module de planification d'objectifs décompose les questions complexes en sous-objectifs, exécutés par un module Reason-Execute avec composants spécialisés. L'entraînement utilise MAPGRPO, une variante de GRPO. Résultats supérieurs sur benchmarks multi-hop complexes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain