Retour au feed
arXiv cs.AI·

Same Signal, Different Semantics: A Cross-Framework Behavioral Analysis of Software Engineering Agents

Signal
82
Hype
15
En 3 lignesÉtude à grande échelle de 64 380 exécutions SWE-bench couvrant 126 configurations d'agents (43 frameworks × LLMs). Les règles comportementales dérivées d'un seul framework ne se transfèrent pas : le même signal (ex. taux d'erreur) corrèle positivement avec la résolution dans 47 configs et négativement dans 48. L'identité du framework explique 64% de la variance contre 10% pour la famille LLM.
Lire la source
Ton avis ?
Agents IABenchmarksGénération de codeÉvaluations

Résumé généré par Claude — vérifié par l'humain