Retour au feed
arXiv cs.LG·

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

Signal
82
Hype
18
En 3 lignesMacArena est un benchmark de 421 tâches sur 50 applications macOS, évaluant les agents de computer use sur l'environnement natif Apple Silicon. Les résultats montrent que les modèles performants sur Linux régressent de 26% sur macOS, révélant que les benchmarks existants ne capturent pas la complexité réelle des interfaces graphiques multiplateformes.

## MacArena : quand macOS révèle les limites structurelles des agents GUI

### 1. Le problème que ce benchmark résout

Depuis 2024, OSWorld s'est imposé comme la référence pour évaluer les agents de computer use (CUAs) sur des environnements Linux/Windows virtualisés. Le problème : macOS était quasi absent de l'équation. Le seul benchmark existant, macOSWorld, couvrait un périmètre étroit — essentiellement des applications first-party Apple — sur des VMs x86 incompatibles avec Apple Silicon. Or, Apple Silicon représente aujourd'hui la totalité des Mac vendus depuis fin 2020, soit l'environnement réel de déploiement pour toute entreprise ou développeur ciblant macOS.

MacArena comble ce vide avec 421 tâches vérifiées manuellement sur 50 applications, tournant nativement sur le framework de virtualisation Apple (pas d'émulation x86). La composition est hybride : portage de tâches OSWorld, contenu macOSWorld, et 49 tâches macOS-natives inédites. Ce dernier groupe est le plus informatif.

### 2. Le chiffre qui compte : -26% et l'inversion des classements

Le résultat central est brutal. Un modèle leader sur les benchmarks existants accuse une régression de plus de 26 points de pourcentage sur le sous-ensemble MacArena natif. Plus révélateur encore : les classements s'inversent entre les tâches portées (issues d'OSWorld) et les tâches macOS-natives. Un modèle dominant sur les premières peut se retrouver en queue sur les secondes.

Ce phénomène d'inversion indique que les performances actuelles sur OSWorld mesurent en partie la familiarité avec une distribution de tâches spécifique — patterns visuels Linux/GNOME, conventions d'interface GTK/Qt — plutôt qu'une compétence GUI généraliste. Les agents ont appris les artefacts du benchmark, pas la compétence sous-jacente.

Concrètement, macOS présente des défis GUI distincts : menu bar globale (vs menus intégrés aux fenêtres), Dock, Mission Control, gestion des fenêtres sans maximisation native, raccourcis Cmd vs Ctrl, dialogues système spécifiques (permissions, Keychain), et une densité d'éléments UI différente dans des apps comme Xcode, Final Cut Pro ou Logic Pro.

### 3. Implications pour l'entraînement par RL

OSWorld sert non seulement de benchmark mais aussi d'environnement d'entraînement pour le reinforcement learning. Des modèles comme Claude Computer Use, GPT-4o avec vision, ou des agents open-source comme UFO ont été optimisés sur ces distributions. Si MacArena confirme que cette optimisation est plateforme-spécifique, cela signifie que les pipelines RL actuels produisent des agents sur-ajustés à Linux/Windows.

La conséquence pratique : tout déploiement d'agent CUA en production sur macOS — automatisation de workflows, RPA, assistants de bureau — doit être re-évalué avec MacArena ou un équivalent natif. Les métriques OSWorld ne sont pas transférables.

### 4. Perdants potentiels et angles morts

**Fournisseurs d'agents CUA** : Anthropic (Computer Use), OpenAI (Operator), et les startups RPA comme Induced AI ou Adept voient leurs benchmarks publics fragilisés. Si leurs modèles régressent de 26% sur macOS natif, les promesses de performance doivent être recalibrées pour les clients enterprise sur Mac.

**OSWorld comme standard de facto** : Le papier argumente implicitement qu'OSWorld a créé un biais de sélection dans la recherche. Les équipes qui ont investi massivement dans l'optimisation OSWorld (données synthétiques, reward shaping) devront reconsidérer leur stack.

**macOSWorld** : Le benchmark précédent est directement déclassé — couverture trop étroite, incompatibilité matérielle, tâches trop simples. Il ne disparaît pas (son contenu est réutilisé dans MacArena) mais perd sa légitimité comme référence standalone.

Ce que MacArena ne résout pas encore : la couverture de 50 applications reste limitée face à l'écosystème macOS réel (App Store, apps pro, outils CLI via Terminal). Les 49 tâches natives inédites sont prometteuses mais le volume reste modeste pour entraîner des modèles. La question du ground truth automatisé sur macOS — plus complexe à instrumenter que sur Linux — n'est pas entièrement adressée. Le benchmark est aujourd'hui un outil d'évaluation ; son utilisation comme environnement RL reste à démontrer à l'échelle.

Lire la source
Ton avis ?
Agents IABenchmarksVision

Résumé généré par Claude — vérifié par l'humain