Learning from Self-Debate: Preparing Reasoning Models for Multi-Agent Debate
Signal
78
Hype
22
En 3 lignesSDRL (Self-Debate Reinforcement Learning) entraîne les LLM à résoudre des problèmes seuls ET à bénéficier de débats multi-agents. Le modèle génère plusieurs solutions, construit un contexte de débat avec différentes trajectoires de raisonnement, puis optimise conjointement les réponses initiales et conditionnées au débat. Résultats : amélioration cohérente de MAD sur plusieurs benchmarks et configurations.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain