Retour au feed
arXiv cs.LG·

Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning

Signal
72
Hype
18
En 3 lignesQ-ALIGN DT aligne les modèles de séquences conditionnés en garantissant que la valeur Q de la politique correspond au return-to-go (RTG) d'entrée. La méthode utilise une fonction Q pour guider l'apprentissage et un fine-tuning par perturbation RTG. Résultats : meilleure contrôlabilité sur D4RL et généralisation à des tâches comme le velocity-tracking.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain