SEDD: Scalable and Efficient Dataset Deduplication with GPUs
SEDD est un framework GPU pour la déduplication de datasets utilisant MinHash LSH. Il surpasse l'outil CPU de SlimPajama de 158× et le GPU de NVIDIA NeMo Curator de 7.8× sur 30M documents. Génération de signatures MinHash 375× plus rapide. Déduplication de 1.2T tokens en 3h sur cluster 32-GPU V100.