Retour au feed
arXiv cs.AI·

OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents

Signal
82
Hype
15
En 3 lignesÉtude sur la latence des agents informatiques sur OSWorld : les appels LLM pour la planification et la réflexion dominent le temps total. Les 16 agents testés nécessitent 2,7-4,3× plus d'étapes que les trajectoires humaines optimales. Chaque étape successive prend 3× plus longtemps.

## OSWorld-Human : quand la latence tue l'utilisabilité des agents

### 1. Ce qui est mesuré — et pourquoi ça manquait

OSWorld est le benchmark de référence pour les agents d'utilisation d'ordinateur (computer-use). Depuis sa publication, la course s'est concentrée sur un seul axe : le taux de succès sur les tâches. OSWorld-Human (arXiv:2506.16042) introduit une dimension orthogonale et jusqu'ici ignorée : l'efficacité temporelle. C'est la première étude systématique de la latence de bout en bout sur ce benchmark.

Le constat de départ est brutal : des tâches que l'humain résout en quelques minutes prennent **des dizaines de minutes** aux meilleurs agents actuels. Ce n'est pas un détail d'implémentation — c'est une barrière d'utilisabilité réelle.

### 2. Les chiffres qui comptent

**Surcoût en étapes** : les 16 agents évalués nécessitent **2,7 à 4,3× plus d'étapes** que les trajectoires humaines optimales annotées manuellement dans OSWorld-Human. Autrement dit, même l'agent le plus efficace de la cohorte multiplie par presque 3 le nombre d'actions nécessaires.

**Dégradation progressive** : chaque étape successive prend **3× plus longtemps** que les étapes initiales. Ce phénomène s'explique par l'accumulation de contexte dans les appels LLM — plus la trajectoire s'allonge, plus les prompts grossissent, plus l'inférence est coûteuse. C'est un effet quadratique déguisé en linéaire.

**Goulot d'étranglement identifié** : les appels aux grands modèles pour la **planification, la réflexion (reflection) et le jugement (judging)** dominent le temps total. Ce ne sont pas les actions sur l'interface (clics, saisies) qui coûtent cher — c'est la cognition synthétique entre chaque action.

### 3. Ce qu'OSWorld-Human apporte concrètement

Le dataset annoté manuellement fournit, pour chaque tâche OSWorld, une trajectoire humaine de référence. Cela permet deux choses que le benchmark original ne permettait pas :

- **Mesurer l'efficacité relative** : ratio étapes-agent / étapes-humain, indépendamment du succès ou de l'échec de la tâche. - **Identifier les patterns de sur-navigation** : où les agents divergent des chemins optimaux, quelles catégories de tâches génèrent le plus de détours.

Avant cette contribution, il n'existait aucune baseline humaine structurée sur OSWorld. Les comparaisons de latence étaient impossibles à faire de manière rigoureuse.

### 4. Implications pour les praticiens et les perdants potentiels

**Pour les équipes qui construisent des agents** : l'architecture à boucle réflexive (plan → agir → réfléchir → rejuger) est le principal coupable. Réduire le nombre d'appels LLM par tâche — via des politiques plus directes, du caching agressif, ou des modèles plus petits pour les étapes de jugement — est désormais un axe de recherche quantifiable.

**Pour les fournisseurs de modèles** : les agents computer-use sont un cas d'usage où la latence par token et le coût de contexte long pénalisent directement l'expérience utilisateur. Les modèles optimisés pour le throughput batch ne sont pas adaptés à ce régime interactif.

**Les perdants directs** : les systèmes qui ont maximisé leur score OSWorld en empilant des passes de réflexion et de vérification. Un agent à 70% de succès avec 4× trop d'étapes n'est pas déployable en production. La métrique de succès seule était une boussole incomplète — les équipes qui ont sur-optimisé dessus vont devoir retravailler leurs architectures.

**Les gagnants potentiels** : les approches qui privilégient des trajectoires courtes et déterministes — agents basés sur des politiques entraînées par imitation sur des trajectoires humaines courtes, ou architectures sans boucle de réflexion explicite. OSWorld-Human fournit maintenant exactement les données d'entraînement nécessaires pour ce type d'approche.

Le signal à retenir : optimiser uniquement le taux de succès sur un benchmark sans contrainte de latence produit des systèmes inutilisables. OSWorld-Human impose une double contrainte — faire juste *et* faire vite — qui correspond enfin à ce que l'utilisation réelle exige.

Lire la source
Ton avis ?
Agents IABenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain