arXiv cs.CL·19 mai 2026

DISA: Offline Importance Sampling for Distribution-Matching LLM-RL

Signal

Hype

En 3 lignesDISA est une méthode d'RL hors-ligne pour les LLM qui découple l'estimation de la fonction de partition (via importance sampling) de l'optimisation de la politique. Sur 9 benchmarks (math et code), elle égale ou surpasse FlowRL, dépasse GRPO/GSPO, et conserve plus de diversité stratégique que les baselines de maximisation de récompense.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Génération de code Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

DISA: Offline Importance Sampling for Distribution-Matching LLM-RL

Autres angles sur ce sujet