Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL
Signal
75
Hype
15
En 3 lignesAdaptive Layerwise Perturbation (ALP) résout les problèmes off-policy en RL pour LLM en injectant des perturbations apprises dans les états cachés de chaque couche. Cela réduit les ratios d'importance à queue lourde, stabilise l'entraînement et améliore les performances sur des tâches de raisonnement mathématique et multi-tour.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain