Retour au feed
arXiv cs.CL·

Infini-News: Efficiently Queryable Access to 1.3 Billion Processed Common Crawl News Articles

Signal
75
Hype
15
En 3 lignesInfini-News indexe 1,35 milliard d'articles de CC-News (août 2016 à présent) avec extraction de métadonnées, détection de langue (GlotLID, lingua, CommonLingua) et attribution géographique (83,4% couverts). Les index Infini-gram permettent des recherches textuelles en sub-seconde sur l'archive complète.
Lire la source
Ton avis ?
RAGRecherche vectorielleBenchmarksOpen source

Résumé généré par Claude — vérifié par l'humain