arXiv cs.LG·19 mai 2026

Flow-Direct: Feedback-Efficient and Reusable Guidance for Flow Models via Non-Parametric Guidance Field

Signal

Hype

En 3 lignesFlow-Direct propose un cadre de guidage sans entraînement pour modèles de flux utilisant un champ de guidage non-paramétrique persistant. Dérivé analytiquement du ratio log-densité entre distributions de base et pondérées par récompense, ce champ accumule tous les échantillons évalués pour améliorer l'efficacité feedback et permettre la réutilisabilité sans nouvelles évaluations de récompense.

Lire la source

Ton avis ?

Papers Raisonnement Reinforcement learning

Résumé généré par Claude — vérifié par l'humain

Flow-Direct: Feedback-Efficient and Reusable Guidance for Flow Models via Non-Parametric Guidance Field

Autres angles sur ce sujet