Retour au feed
arXiv cs.AI·

Identifiable Token Correspondence for World Models

Signal
78
Hype
25
En 3 lignesModèle du monde basé Transformer pour la prédiction de frames vidéo. Formule la prédiction du frame suivant comme un problème d'inférence probabiliste structurée avec variables de correspondance latentes entre tokens. Chaque token est soit copié du frame précédent, soit généré. SOTA sur 4 benchmarks : 72.5% return et 35.6% score sur Craftax-classic (vs 67.4%/27.9% précédent).
Lire la source
Ton avis ?
RaisonnementVisionReinforcement learningPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain