Hugging Face Blog·20 mars 2024

GaLore: Advancing Large Model Training on Consumer-grade Hardware

Signal

Hype

En 3 lignesGaLore réduit la mémoire GPU requise pour l'entraînement de grands modèles via une décomposition de gradient par projection. Permet d'entraîner des modèles 7B-70B sur hardware grand public (RTX 4090) avec gains de vitesse jusqu'à 65% comparé aux méthodes standard.

Lire la source

Ton avis ?

Fine-tuning Infrastructure Open source

Résumé généré par Claude — vérifié par l'humain

GaLore: Advancing Large Model Training on Consumer-grade Hardware

Autres angles sur ce sujet