arXiv cs.CL·28 mai 2026

VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

Signal

Hype

En 3 lignesVibeSearchBench évalue les agents LLM sur la recherche collaborative multi-tour en contexte réel. Le benchmark contient 200 tâches bilingues (chinois/anglais) sur 20 domaines, avec graphes de connaissances sans schéma fixe. Sept modèles frontière testés obtiennent F1 max 30.30, révélant des lacunes en raisonnement long-contexte et élicitation d'intention.

Lire la source

Ton avis ?

Benchmarks Agents IA Raisonnement

Résumé généré par Claude — vérifié par l'humain

VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

Autres angles sur ce sujet