arXiv cs.LG·29 mai 2026

Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning

Signal

Hype

En 3 lignesQ-ALIGN DT aligne les modèles de séquences conditionnés en garantissant que la valeur Q de la politique correspond au return-to-go (RTG) d'entrée. La méthode utilise une fonction Q pour guider l'apprentissage et un fine-tuning par perturbation RTG. Résultats : meilleure contrôlabilité sur D4RL et généralisation à des tâches comme le velocity-tracking.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning

Autres angles sur ce sujet