arXiv cs.AI·22 mai 2026

DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation

Signal

Hype

En 3 lignesDeepWeb-Bench est un benchmark de recherche profonde évaluant 9 modèles frontière sur des tâches exigeant collecte massive d'evidence, réconciliation cross-source et dérivation multi-étapes longue. Les erreurs proviennent surtout de la dérivation et calibration (>70%), pas de la retrieval (12-14%). Les modèles forts et faibles échouent différemment : dérivation incomplète vs hallucination de précision.

Lire la source

Ton avis ?

Benchmarks Raisonnement Agents IA RAG

Résumé généré par Claude — vérifié par l'humain

DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation

Autres angles sur ce sujet