Retour au feed
arXiv cs.AI·

Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Signal
75
Hype
15
En 3 lignesAdaptive Layerwise Perturbation (ALP) résout les problèmes off-policy en RL pour LLM en injectant des perturbations apprises dans les états cachés de chaque couche. Cela réduit les ratios d'importance à queue lourde, stabilise l'entraînement et améliore les performances sur des tâches de raisonnement mathématique et multi-tour.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain