Retour au feed
arXiv cs.CL·

VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

Signal
72
Hype
25
En 3 lignesVibeSearchBench évalue les agents LLM sur la recherche collaborative multi-tour en contexte réel. Le benchmark contient 200 tâches bilingues (chinois/anglais) sur 20 domaines, avec graphes de connaissances sans schéma fixe. Sept modèles frontière testés obtiennent F1 max 30.30, révélant des lacunes en raisonnement long-contexte et élicitation d'intention.
Lire la source
Ton avis ?
BenchmarksAgents IARaisonnement

Résumé généré par Claude — vérifié par l'humain