Retour au feed
arXiv cs.AI·

ContractBench: Can LLM Agents Preserve Observation Contracts?

Signal
82
Hype
15
En 3 lignesContractBench évalue la capacité des agents LLM à préserver les contrats d'observation (artefacts temporellement valides et intègres au niveau des octets) lors d'appels API. Sur 38 modèles testés, aucun ne dépasse 80% : Claude-Opus-4.6 atteint 77,8%. Les résultats révèlent des défaillances d'intégrité et de validité non corrélées à la taille du modèle, et une régression non-monotone dans la famille GPT-5.
Lire la source
Ton avis ?
Agents IABenchmarksClaudeGPTÉvaluations

Résumé généré par Claude — vérifié par l'humain