arXiv cs.AI·19 mai 2026

Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Signal

Hype

En 3 lignesAdaptive Layerwise Perturbation (ALP) résout les problèmes off-policy en RL pour LLM en injectant des perturbations apprises dans les états cachés de chaque couche. Cela réduit les ratios d'importance à queue lourde, stabilise l'entraînement et améliore les performances sur des tâches de raisonnement mathématique et multi-tour.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Autres angles sur ce sujet