arXiv cs.AI·19 mai 2026

Identifiable Token Correspondence for World Models

Signal

Hype

En 3 lignesModèle du monde basé Transformer pour la prédiction de frames vidéo. Formule la prédiction du frame suivant comme un problème d'inférence probabiliste structurée avec variables de correspondance latentes entre tokens. Chaque token est soit copié du frame précédent, soit généré. SOTA sur 4 benchmarks : 72.5% return et 35.6% score sur Craftax-classic (vs 67.4%/27.9% précédent).

Lire la source

Ton avis ?

Raisonnement Vision Reinforcement learning Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Identifiable Token Correspondence for World Models

Autres angles sur ce sujet