Retour au feed
Hugging Face Blog·

Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models

Signal
75
Hype
25
En 3 lignesHugging Face présente Cosmopedia, une méthode pour générer des données synthétiques à grande échelle destinées au pré-entraînement de LLM. Le dataset contient 30 milliards de tokens générés via Mixtral 8x7B, couvrant mathématiques, sciences et programmation. Les modèles entraînés sur ces données atteignent des performances comparables aux modèles pré-entraînés sur données naturelles.
Lire la source
Ton avis ?
Fine-tuningOpen sourceBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain