arXiv cs.AI·29 mai 2026

Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth

Signal

Hype

En 3 lignesÉtude de la recherche bibliographique à grande échelle : un pipeline Deep Research augmente le recall de 20% à 80% sur RollingEval-Jun25 (250 articles). Analyse critique des listes de références humaines comme ground truth : seulement 51% jugées modérément pertinentes vs 86-88% pour les meilleurs ré-rankers IA. Les humains citent 2,5x plus leurs collaborateurs directs.

Lire la source

Ton avis ?

RAG Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth

Autres angles sur ce sujet