BrowseComp: a benchmark for browsing agents
Signal
72
Hype
25
En 3 lignesOpenAI publie BrowseComp, un benchmark pour évaluer les agents de navigation web. Cet outil mesure la capacité des systèmes IA à naviguer, chercher et extraire des informations sur internet. Benchmark officiel destiné aux praticiens testant des agents autonomes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain