Are we really tilting? The mechanics of reward guidance in flow and diffusion models
Signal
78
Hype
15
En 3 lignesLes algorithmes de reward guidance stérisent les processus génératifs vers des mesures favorables aux récompenses. L'étude montre que le reward hacking provient d'une approximation pratique : l'estimation plug-in à particules finies de la fonction h de Doob. Les auteurs proposent un calendrier d'amortissement fermé et valident sur cibles gaussiennes, damier 2D et FLUX.1.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain