When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning
Étude sur 6000 paires tâche-condition montrant que le débat multi-agent dégrade la génération (-1.6 à -15.5pp) via confusion induite par critique, mais améliore la détection d'erreurs (+27.4pp F1). Une séparation adversariale avec vérification par code et génération contrôlée atteint +5.3pp sur tâches génératives.