Reddit r/MachineLearning·27 May 2026

EMA-Gated Temporal Sequence Compression in Vision Transformers [P]

Signal

Hype

In three linesNeuroFlow is a dynamic routing framework for Vision Transformer video inference. It exploits temporal redundancy via Exponential Moving Average (EMA) of patch-level embeddings to eliminate stationary tokens. Architecture B achieves 55.80× wall-clock speedup (678 ms → 11.9 ms on SigLIP 1792p) at 97.37% embedding fidelity. Code released.

Read source

Your take?

Vision Papers Open source Infrastructure

Summary generated by Claude — human-verified

EMA-Gated Temporal Sequence Compression in Vision Transformers [P]

Other angles on this story