Retour au feed
Reddit r/MachineLearning·

EMA-Gated Temporal Sequence Compression in Vision Transformers [P]

Signal
72
Hype
35
En 3 lignesNeuroFlow est un framework de routage dynamique pour l'inférence vidéo des Vision Transformers. Il exploite la redondance temporelle via une moyenne mobile exponentielle (EMA) des embeddings de patches pour éliminer les tokens stationnaires. Architecture B atteint 55.80× d'accélération (678 ms → 11.9 ms sur SigLIP 1792p) à 97.37% de fidélité. Code disponible.
Lire la source
Ton avis ?
VisionPapersOpen sourceInfrastructure

Résumé généré par Claude — vérifié par l'humain