Retour au feed
arXiv cs.AI·

Enabling Off-Policy Imitation Learning with Deep Actor Critic Stabilization

Signal
72
Hype
15
En 3 lignesNouvel algorithme d'imitation adversariale combinant apprentissage hors-politique avec stabilisation par double Q-network. Réduit l'inefficacité échantillonnale de GAIL en éliminant la dépendance aux algorithmes on-policy (TRPO) et l'ingénierie de récompenses.
Lire la source
Ton avis ?
Reinforcement learningAgents IAPapers

Résumé généré par Claude — vérifié par l'humain