Same Signal, Different Semantics: A Cross-Framework Behavioral Analysis of Software Engineering Agents
Signal
82
Hype
15
En 3 lignesÉtude à grande échelle de 64 380 exécutions SWE-bench couvrant 126 configurations d'agents (43 frameworks × LLMs). Les règles comportementales dérivées d'un seul framework ne se transfèrent pas : le même signal (ex. taux d'erreur) corrèle positivement avec la résolution dans 47 configs et négativement dans 48. L'identité du framework explique 64% de la variance contre 10% pour la famille LLM.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain