🐯 Liger GRPO meets TRL
Signal
72
Hype
28
En 3 lignesHugging Face intègre Liger GRPO (Group Relative Policy Optimization) dans sa librairie TRL (Transformers Reinforcement Learning). Cette intégration permet l'entraînement efficace de modèles de langage avec optimisation par politique relative de groupe.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain