Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training
Signal
78
Hype
25
En 3 lignesLearning-Zone Energy (LZE) est un framework de sélection de données en ligne pour l'entraînement RL des LLM. Testé sur Qwen 1.5B-8B sur GSM8K et MATH, il retient 40% des données par étape tout en égalant les baselines complètes, avec gains OOD de +45.9% sur AIME25 et réduction de 36% des FLOPs.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain