SEDD: Scalable and Efficient Dataset Deduplication with GPUs
Signal
82
Hype
15
En 3 lignesSEDD est un framework GPU pour la déduplication de datasets utilisant MinHash LSH. Il surpasse l'outil CPU de SlimPajama de 158× et le GPU de NVIDIA NeMo Curator de 7.8× sur 30M documents. Génération de signatures MinHash 375× plus rapide. Déduplication de 1.2T tokens en 3h sur cluster 32-GPU V100.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain