Agent Execution Tax: new procurement metric for browser agent benchmarks?
Signal
78
Hype
25
En 3 lignesBenchmark WebVoyager sur 720 tâches d'agents navigateur : MiniMax M2.5 coûte 2,3× moins cher par tâche réussie que Gemini 2.5 Flash. GLM-5 atteint 57,1% d'accuracy, Kimi K2.5 affiche 0% d'erreurs de parsing. Les modèles open-weight surpassent Gemini non par intelligence mais par fiabilité. Le coût réel dépasse le prix au token une fois les retries comptabilisés.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain