Archives

mars 2024

26 articles

Hugging Face Blog·

Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models

Hugging Face présente Cosmopedia, une méthode pour générer des données synthétiques à grande échelle destinées au pré-entraînement de LLM. Le dataset contient 30 milliards de tokens générés via Mixtral 8x7B, couvrant mathématiques, sciences et programmation. Les modèles entraînés sur ces données atteignent des performances comparables aux modèles pré-entraînés sur données naturelles.

Fine-tuningOpen sourceBenchmarks
SIG
75
HYP
25