Retour au feed
arXiv cs.LG·

GAC: Noise-Aware Adaptive Mixing for Hybrid SFT-RL Post-Training

Signal
78
Hype
15
En 3 lignesGAC est un contrôleur adaptatif pour l'entraînement hybride SFT-RL qui ajuste dynamiquement le poids de mélange en fonction de l'estimation en ligne de la variance des gradients et du désaccord entre les deux signaux. Testé sur des benchmarks math, code, science et logique, GAC améliore les baselines fixes avec moins de 1% de surcharge computationnelle.
Lire la source
Ton avis ?
Reinforcement learningFine-tuningBenchmarks

Résumé généré par Claude — vérifié par l'humain