Identifying Latent Actions and Dynamics from Offline Data via Demonstrator Diversity
Signal
75
Hype
15
En 3 lignesArticle théorique sur la récupération d'actions latentes et de dynamiques d'environnement à partir de trajectoires hors ligne sans observations d'actions. Les auteurs exploitent la diversité des démonstrateurs (chacun suivant une politique distincte) pour identifier les noyaux de transition latents via factorisation matricielle non-négative. Identifiabilité prouvée sous conditions de rang et diversité de politique.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain