arXiv cs.AI·19 mai 2026

OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval

Signal

Hype

En 3 lignesOPERA est une architecture de récupération augmentée par génération (RAG) qui couple planification et exécution via apprentissage par renforcement. Un module de planification d'objectifs décompose les questions complexes en sous-objectifs, exécutés par un module Reason-Execute avec composants spécialisés. L'entraînement utilise MAPGRPO, une variante de GRPO. Résultats supérieurs sur benchmarks multi-hop complexes.

Lire la source

Ton avis ?

RAG Reinforcement learning Raisonnement Multi-agents

Résumé généré par Claude — vérifié par l'humain

OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval

Autres angles sur ce sujet