Identifiable Token Correspondence for World Models
Signal
78
Hype
25
En 3 lignesModèle du monde basé Transformer pour la prédiction de frames vidéo. Formule la prédiction du frame suivant comme un problème d'inférence probabiliste structurée avec variables de correspondance latentes entre tokens. Chaque token est soit copié du frame précédent, soit généré. SOTA sur 4 benchmarks : 72.5% return et 35.6% score sur Craftax-classic (vs 67.4%/27.9% précédent).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain