Retour au feed
arXiv cs.AI·

When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning

Signal
78
Hype
15
En 3 lignesÉtude sur 6000 paires tâche-condition montrant que le débat multi-agent dégrade la génération (-1.6 à -15.5pp) via confusion induite par critique, mais améliore la détection d'erreurs (+27.4pp F1). Une séparation adversariale avec vérification par code et génération contrôlée atteint +5.3pp sur tâches génératives.
Lire la source
Ton avis ?
Multi-agentsAgents IAÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain