ClawArena: Benchmarking AI Agents in Evolving Information Environments
Signal
78
Hype
22
En 3 lignesClawArena est un benchmark évaluant les agents IA dans des environnements informationnels évolutifs. Il teste la capacité des agents à maintenir des croyances correctes face à des sources contradictoires, des mises à jour dynamiques et des préférences implicites. 12 scénarios multi-tours, 337 rounds, 5 frameworks et 18 modèles évalués.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain