Retour au feed
arXiv cs.AI·

Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents

Signal
78
Hype
22
En 3 lignesCo-ReAct intègre des rubriques d'évaluation au niveau de chaque étape pour guider les agents ReAct dans les tâches de recherche multi-étapes. Un générateur de rubriques entraîné avec GRPO optimise une corrélation de rang Spearman multi-juges. Amélioration mesurée sur DeepResearchBench et SQA-CS-V2 avec modèles 8B/14B et frontier.
Lire la source
Ton avis ?
Agents IARaisonnementReinforcement learningÉvaluations

Résumé généré par Claude — vérifié par l'humain