Reddit r/LocalLLaMA·26 mai 2026

Output Length Constrained Summarization using GRPO on tiny LLMs | smolcluster

Signal

Hype

En 3 lignesÉtude de fine-tuning GRPO sur modèles ultra-légers (Qwen2.5-0.5B, LFM-2.5-350M) pour résumer des posts Reddit en exactement 64 tokens. Comparaison de deux stratégies : entraînement séquentiel (longueur puis qualité) vs joint. Le curriculum staged gagne avec scores G-Eval de 2.904 (LFM) et 2.817 (Qwen), contre 2.376/2.332 en zero-shot.

Lire la source

Ton avis ?

Qwen Fine-tuning Reinforcement learning Évaluations Open source

Résumé généré par Claude — vérifié par l'humain

Output Length Constrained Summarization using GRPO on tiny LLMs | smolcluster

Autres angles sur ce sujet