Retour au feed
arXiv cs.CL·

Learning from Self-Debate: Preparing Reasoning Models for Multi-Agent Debate

Signal
78
Hype
22
En 3 lignesSDRL (Self-Debate Reinforcement Learning) entraîne les LLM à résoudre des problèmes seuls ET à bénéficier de débats multi-agents. Le modèle génère plusieurs solutions, construit un contexte de débat avec différentes trajectoires de raisonnement, puis optimise conjointement les réponses initiales et conditionnées au débat. Résultats : amélioration cohérente de MAD sur plusieurs benchmarks et configurations.
Lire la source
Ton avis ?
RaisonnementReinforcement learningMulti-agentsAgents IA

Résumé généré par Claude — vérifié par l'humain