arXiv cs.AI·3 juin 2026

When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning

Signal

Hype

En 3 lignesÉtude sur 6000 paires tâche-condition montrant que le débat multi-agent dégrade la génération (-1.6 à -15.5pp) via confusion induite par critique, mais améliore la détection d'erreurs (+27.4pp F1). Une séparation adversariale avec vérification par code et génération contrôlée atteint +5.3pp sur tâches génératives.

Lire la source

Ton avis ?

Multi-agents Agents IA Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning

Autres angles sur ce sujet