Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning
Signal
72
Hype
18
En 3 lignesQ-ALIGN DT aligne les modèles de séquences conditionnés en garantissant que la valeur Q de la politique correspond au return-to-go (RTG) d'entrée. La méthode utilise une fonction Q pour guider l'apprentissage et un fine-tuning par perturbation RTG. Résultats : meilleure contrôlabilité sur D4RL et généralisation à des tâches comme le velocity-tracking.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain