arXiv cs.AI·19 mai 2026

Same Signal, Different Semantics: A Cross-Framework Behavioral Analysis of Software Engineering Agents

Signal

Hype

En 3 lignesÉtude à grande échelle de 64 380 exécutions SWE-bench couvrant 126 configurations d'agents (43 frameworks × LLMs). Les règles comportementales dérivées d'un seul framework ne se transfèrent pas : le même signal (ex. taux d'erreur) corrèle positivement avec la résolution dans 47 configs et négativement dans 48. L'identité du framework explique 64% de la variance contre 10% pour la famille LLM.

Lire la source

Ton avis ?

Agents IA Benchmarks Génération de code Évaluations

Résumé généré par Claude — vérifié par l'humain

Same Signal, Different Semantics: A Cross-Framework Behavioral Analysis of Software Engineering Agents

Autres angles sur ce sujet