Retour au feed
Hugging Face Blog·

TRL v1.0: Post-Training Library Built to Move with the Field

Signal
75
Hype
25
En 3 lignesHugging Face publie TRL v1.0, une bibliothèque de post-training pour l'entraînement de modèles de langage. La version 1.0 marque la stabilité de l'API et inclut support de DPO, PPO, et optimisations pour modèles comme Llama et Mistral.
Lire la source
Ton avis ?
Fine-tuningReinforcement learningOpen sourceOutils

Résumé généré par Claude — vérifié par l'humain