Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps
Signal
72
Hype
25
En 3 lignesDiamond Maps sont des modèles de flux stochastiques permettant l'alignement efficace aux récompenses au moment de l'inférence. Ils amortissent plusieurs étapes de simulation en un seul échantillonneur tout en préservant la stochasticité nécessaire. Appris par distillation depuis GLASS Flows, ils surpassent les méthodes existantes en performance et scalabilité.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain