VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild
Signal
72
Hype
25
En 3 lignesVibeSearchBench évalue les agents LLM sur la recherche collaborative multi-tour en contexte réel. Le benchmark contient 200 tâches bilingues (chinois/anglais) sur 20 domaines, avec graphes de connaissances sans schéma fixe. Sept modèles frontière testés obtiennent F1 max 30.30, révélant des lacunes en raisonnement long-contexte et élicitation d'intention.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain