Retour au feed
arXiv cs.CL·

DISA: Offline Importance Sampling for Distribution-Matching LLM-RL

Signal
78
Hype
15
En 3 lignesDISA est une méthode d'RL hors-ligne pour les LLM qui découple l'estimation de la fonction de partition (via importance sampling) de l'optimisation de la politique. Sur 9 benchmarks (math et code), elle égale ou surpasse FlowRL, dépasse GRPO/GSPO, et conserve plus de diversité stratégique que les baselines de maximisation de récompense.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementGénération de codePapersBenchmarks

Résumé généré par Claude — vérifié par l'humain