Retour au feed
arXiv cs.AI·

DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation

Signal
78
Hype
25
En 3 lignesDeepWeb-Bench est un benchmark de recherche profonde évaluant 9 modèles frontière sur des tâches exigeant collecte massive d'evidence, réconciliation cross-source et dérivation multi-étapes longue. Les erreurs proviennent surtout de la dérivation et calibration (>70%), pas de la retrieval (12-14%). Les modèles forts et faibles échouent différemment : dérivation incomplète vs hallucination de précision.
Lire la source
Ton avis ?
BenchmarksRaisonnementAgents IARAG

Résumé généré par Claude — vérifié par l'humain