GEM: Geometric Entropy Mixing for Optimal LLM Data Curation
Signal
78
Hype
25
En 3 lignesGEM (Geometric Entropy Mixing) reformule la curation de données LLM comme un problème variationnel sur l'hypersphère pour éviter l'effondrement de clusters. Utilise un algorithme MM prouvable et la distillation enseignant-étudiant pour passer à l'échelle. Améliore la précision en aval de 1,2% sur modèles 1,1B intégrés à DoReMi et RegMix.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain