arXiv cs.AI·16 juin 2026

CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

Signal

Hype

En 3 lignesCODA-BENCH est le premier benchmark évaluant conjointement les capacités de code et de données des agents IA. Construit sur l'écosystème Kaggle avec 1 009 tâches et ~980 fichiers par environnement, il révèle que les meilleurs agents n'atteignent que 61,1% de succès pour intégrer découverte de données et exécution de code.

## CODA-BENCH : Quand les agents IA rencontrent la réalité des données

### 1. Ce qui est mesuré — et pourquoi ça manquait

Les benchmarks existants pour agents de code (SWE-bench, HumanEval, DS-1000) évaluent soit la génération de code pure, soit la manipulation de données structurées, jamais les deux simultanément dans un environnement bruité à grande échelle. Or, tout ingénieur data le sait : 60 à 70 % du travail réel consiste à *trouver* les bons fichiers avant même d'écrire une ligne de code. CODA-BENCH (arXiv:2606.15300) comble ce vide en imposant aux agents une double contrainte : exploration de système de fichiers complexe + génération de code analytique.

La construction du benchmark repose sur l'écosystème Kaggle — des centaines de datasets publics organisés en 31 communautés thématiques. Chaque environnement de tâche contient en moyenne **980 fichiers**, ce qui simule le bruit et la densité d'un vrai projet data. Les 1 009 tâches couvrent des scénarios analytiques réalistes : agrégations, jointures multi-fichiers, transformations conditionnelles, visualisations.

### 2. Les chiffres qui comptent

Le résultat central : **61,1 % de taux de succès pour le meilleur agent testé**. Ce plafond est frappant quand on le compare aux performances sur les benchmarks isolés — où les mêmes modèles approchent ou dépassent 80-90 % sur des tâches de code pur (GPT-4o sur HumanEval : ~90 %). L'écart de ~30 points n'est pas un artefact de difficulté algorithmique supplémentaire : il reflète l'incapacité structurelle des agents actuels à orchestrer découverte de ressources et exécution de code dans un pipeline cohérent.

Les 31 communautés permettent une analyse par domaine : certaines verticales (finance, biologie) présentent des hiérarchies de fichiers plus profondes et des schémas moins standardisés, ce qui dégrade davantage les performances. Le benchmark distingue explicitement les erreurs de *data discovery* (mauvais fichier sélectionné) des erreurs de *code execution* (bon fichier, mauvais traitement), ce qui est méthodologiquement précieux pour diagnostiquer les failles.

### 3. Pourquoi ce gap existe — analyse structurelle

Trois mécanismes expliquent le plafond à 61,1 % :

**a) Coût de l'exploration non guidée.** Avec ~980 fichiers par environnement, un agent qui ne dispose pas d'une stratégie d'indexation efficace consomme une fraction significative de sa fenêtre de contexte en navigation. Les agents actuels tendent à soit sur-explorer (context overflow), soit sous-explorer (premier fichier plausible retenu sans vérification).

**b) Absence de mémoire épisodique persistante.** Les agents LLM sans mémoire externe ne peuvent pas construire une carte mentale du filesystem au fil des appels d'outils. Chaque sous-tâche repart de zéro, ce qui multiplie les erreurs de cohérence entre étapes.

**c) Désalignement entre signal de récompense et comportement optimal.** Les agents entraînés sur du code pur optimisent pour produire du code syntaxiquement correct, pas pour valider que les données d'entrée correspondent bien au problème posé. Ce biais de training se manifeste directement dans les erreurs de data discovery.

### 4. Perdants et implications pratiques

**Perdants directs :** Les frameworks d'agents qui se positionnent sur l'automatisation de pipelines data (AutoGPT-style, certains agents Copilot) voient leur plafond réel exposé. Un taux de 61,1 % en environnement contrôlé implique des performances bien inférieures en production où les filesystems sont encore moins structurés.

**Perdants indirects :** Les équipes qui ont déployé des agents autonomes sur des tâches d'analyse data sans benchmark de validation adapté. CODA-BENCH fournit désormais un outil de qualification que ces déploiements n'avaient pas.

**Ce que le benchmark ne mesure pas encore :** les tâches multi-agents collaboratifs, les environnements avec données en streaming, et les scénarios où les fichiers sont partiellement corrompus ou mal nommés — autant de dimensions qui dégraderaient encore les scores.

Pour les praticiens, CODA-BENCH établit un nouveau standard d'évaluation pour tout agent destiné à opérer sur des environnements data réels. Le score de 61,1 % doit être lu comme un plancher de référence, pas un plafond : les architectures intégrant RAG sur filesystem, mémoire épisodique et validation de schéma avant exécution devraient mécaniquement progresser. Le benchmark est disponible via arXiv:2606.15300.

Lire la source

Ton avis ?

Agents IA Benchmarks Génération de code Évaluations

Résumé généré par Claude — vérifié par l'humain

CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

Autres angles sur ce sujet