arXiv cs.AI·25 mai 2026

Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents

Signal

Hype

En 3 lignesCo-ReAct intègre des rubriques d'évaluation au niveau de chaque étape pour guider les agents ReAct dans les tâches de recherche multi-étapes. Un générateur de rubriques entraîné avec GRPO optimise une corrélation de rang Spearman multi-juges. Amélioration mesurée sur DeepResearchBench et SQA-CS-V2 avec modèles 8B/14B et frontier.

Lire la source

Ton avis ?

Agents IA Raisonnement Reinforcement learning Évaluations

Résumé généré par Claude — vérifié par l'humain

Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents

Autres angles sur ce sujet