Retour au feed
arXiv cs.LG·

Flow-Direct: Feedback-Efficient and Reusable Guidance for Flow Models via Non-Parametric Guidance Field

Signal
72
Hype
18
En 3 lignesFlow-Direct propose un cadre de guidage sans entraînement pour modèles de flux utilisant un champ de guidage non-paramétrique persistant. Dérivé analytiquement du ratio log-densité entre distributions de base et pondérées par récompense, ce champ accumule tous les échantillons évalués pour améliorer l'efficacité feedback et permettre la réutilisabilité sans nouvelles évaluations de récompense.
Lire la source
Ton avis ?
PapersRaisonnementReinforcement learning

Résumé généré par Claude — vérifié par l'humain