Reddit r/MachineLearning·27 mai 2026

EMA-Gated Temporal Sequence Compression in Vision Transformers [P]

Signal

Hype

En 3 lignesNeuroFlow est un framework de routage dynamique pour l'inférence vidéo des Vision Transformers. Il exploite la redondance temporelle via une moyenne mobile exponentielle (EMA) des embeddings de patches pour éliminer les tokens stationnaires. Architecture B atteint 55.80× d'accélération (678 ms → 11.9 ms sur SigLIP 1792p) à 97.37% de fidélité. Code disponible.

Lire la source

Ton avis ?

Vision Papers Open source Infrastructure

Résumé généré par Claude — vérifié par l'humain

EMA-Gated Temporal Sequence Compression in Vision Transformers [P]

Autres angles sur ce sujet