Retour au feed
arXiv cs.LG·

Are we really tilting? The mechanics of reward guidance in flow and diffusion models

Signal
78
Hype
15
En 3 lignesLes algorithmes de reward guidance stérisent les processus génératifs vers des mesures favorables aux récompenses. L'étude montre que le reward hacking provient d'une approximation pratique : l'estimation plug-in à particules finies de la fonction h de Doob. Les auteurs proposent un calendrier d'amortissement fermé et valident sur cibles gaussiennes, damier 2D et FLUX.1.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain