Hugging Face Blog·27 mai 2026

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

Signal

Hype

En 3 lignesITBench-AA, nouveau benchmark créé par Artificial Analysis et IBM, évalue les capacités des modèles frontier sur des tâches IT d'entreprise agentic. Les meilleurs modèles (Claude, GPT-4, Gemini) obtiennent moins de 50% de réussite, révélant des lacunes significatives dans l'automatisation des workflows IT complexes.

Lire la source

Ton avis ?

Benchmarks Agents IA Claude GPT Gemini

Résumé généré par Claude — vérifié par l'humain

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

Autres angles sur ce sujet