arXiv cs.AI·19 mai 2026

ContractBench: Can LLM Agents Preserve Observation Contracts?

Signal

Hype

En 3 lignesContractBench évalue la capacité des agents LLM à préserver les contrats d'observation (artefacts temporellement valides et intègres au niveau des octets) lors d'appels API. Sur 38 modèles testés, aucun ne dépasse 80% : Claude-Opus-4.6 atteint 77,8%. Les résultats révèlent des défaillances d'intégrité et de validité non corrélées à la taille du modèle, et une régression non-monotone dans la famille GPT-5.

Lire la source

Ton avis ?

Agents IA Benchmarks Claude GPT Évaluations

Résumé généré par Claude — vérifié par l'humain

ContractBench: Can LLM Agents Preserve Observation Contracts?

Autres angles sur ce sujet