GAC: Noise-Aware Adaptive Mixing for Hybrid SFT-RL Post-Training
Signal
78
Hype
15
En 3 lignesGAC est un contrôleur adaptatif pour l'entraînement hybride SFT-RL qui ajuste dynamiquement le poids de mélange en fonction de l'estimation en ligne de la variance des gradients et du désaccord entre les deux signaux. Testé sur des benchmarks math, code, science et logique, GAC améliore les baselines fixes avec moins de 1% de surcharge computationnelle.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain