Reddit r/LocalLLaMA·21 mai 2026

Agent Execution Tax: new procurement metric for browser agent benchmarks?

Signal

Hype

En 3 lignesBenchmark WebVoyager sur 720 tâches d'agents navigateur : MiniMax M2.5 coûte 2,3× moins cher par tâche réussie que Gemini 2.5 Flash. GLM-5 atteint 57,1% d'accuracy, Kimi K2.5 affiche 0% d'erreurs de parsing. Les modèles open-weight surpassent Gemini non par intelligence mais par fiabilité. Le coût réel dépasse le prix au token une fois les retries comptabilisés.

Lire la source

Ton avis ?

Agents IA Benchmarks Open source Évaluations

Résumé généré par Claude — vérifié par l'humain

Agent Execution Tax: new procurement metric for browser agent benchmarks?

Autres angles sur ce sujet