Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents
Signal
78
Hype
22
En 3 lignesCo-ReAct intègre des rubriques d'évaluation au niveau de chaque étape pour guider les agents ReAct dans les tâches de recherche multi-étapes. Un générateur de rubriques entraîné avec GRPO optimise une corrélation de rang Spearman multi-juges. Amélioration mesurée sur DeepResearchBench et SQA-CS-V2 avec modèles 8B/14B et frontier.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain