Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training
Learning-Zone Energy (LZE) est un framework de sélection de données en ligne pour l'entraînement RL des LLM. Testé sur Qwen 1.5B-8B sur GSM8K et MATH, il retient 40% des données par étape tout en égalant les baselines complètes, avec gains OOD de +45.9% sur AIME25 et réduction de 36% des FLOPs.