Retour au feed
Hugging Face Blog·

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

Signal
85
Hype
25
En 3 lignesITBench-AA, nouveau benchmark créé par Artificial Analysis et IBM, évalue les capacités des modèles frontier sur des tâches IT d'entreprise agentic. Les meilleurs modèles (Claude, GPT-4, Gemini) obtiennent moins de 50% de réussite, révélant des lacunes significatives dans l'automatisation des workflows IT complexes.
Lire la source
Ton avis ?
BenchmarksAgents IAClaudeGPTGemini

Résumé généré par Claude — vérifié par l'humain