Enabling Off-Policy Imitation Learning with Deep Actor Critic Stabilization
Signal
72
Hype
15
En 3 lignesNouvel algorithme d'imitation adversariale combinant apprentissage hors-politique avec stabilisation par double Q-network. Réduit l'inefficacité échantillonnale de GAIL en éliminant la dépendance aux algorithmes on-policy (TRPO) et l'ingénierie de récompenses.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain