arXiv cs.AI·19 mai 2026

DiPRL: Learning Discrete Programmatic Policies via Architecture Entropy Regularization

Signal

Hype

En 3 lignesDiPRL propose une méthode d'apprentissage par renforcement programmatique qui génère des politiques discrètes interprétables sans étape de discrétisation post-hoc. Via régularisation d'entropie architecturale, le modèle converge vers des programmes discrets pendant l'entraînement, évitant la perte de performance et la nécessité d'ajustement fin supplémentaire.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

DiPRL: Learning Discrete Programmatic Policies via Architecture Entropy Regularization

Autres angles sur ce sujet