Retour au feed
arXiv cs.AI·

Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth

Signal
75
Hype
15
En 3 lignesÉtude de la recherche bibliographique à grande échelle : un pipeline Deep Research augmente le recall de 20% à 80% sur RollingEval-Jun25 (250 articles). Analyse critique des listes de références humaines comme ground truth : seulement 51% jugées modérément pertinentes vs 86-88% pour les meilleurs ré-rankers IA. Les humains citent 2,5x plus leurs collaborateurs directs.
Lire la source
Ton avis ?
RAGÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain