TRL v1.0: Post-Training Library Built to Move with the Field
Signal
75
Hype
25
En 3 lignesHugging Face publie TRL v1.0, une bibliothèque de post-training pour l'entraînement de modèles de langage. La version 1.0 marque la stabilité de l'API et inclut support de DPO, PPO, et optimisations pour modèles comme Llama et Mistral.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain