Retour au feed
Reddit r/LocalLLaMA·

Output Length Constrained Summarization using GRPO on tiny LLMs | smolcluster

Signal
72
Hype
25
En 3 lignesÉtude de fine-tuning GRPO sur modèles ultra-légers (Qwen2.5-0.5B, LFM-2.5-350M) pour résumer des posts Reddit en exactement 64 tokens. Comparaison de deux stratégies : entraînement séquentiel (longueur puis qualité) vs joint. Le curriculum staged gagne avec scores G-Eval de 2.904 (LFM) et 2.817 (Qwen), contre 2.376/2.332 en zero-shot.
Lire la source
Ton avis ?
QwenFine-tuningReinforcement learningÉvaluationsOpen source

Résumé généré par Claude — vérifié par l'humain