Hugging Face Blog·20 mars 2024

Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models

Signal

Hype

En 3 lignesHugging Face présente Cosmopedia, une méthode pour générer des données synthétiques à grande échelle destinées au pré-entraînement de LLM. Le dataset contient 30 milliards de tokens générés via Mixtral 8x7B, couvrant mathématiques, sciences et programmation. Les modèles entraînés sur ces données atteignent des performances comparables aux modèles pré-entraînés sur données naturelles.

Lire la source

Ton avis ?

Fine-tuning Open source Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models

Autres angles sur ce sujet