arXiv cs.AI·19 mai 2026

Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs

Signal

Hype

En 3 lignesFre-Res propose une compression adaptative des tokens vidéo pour les MLLMs vidéo. Le framework sépare les détails spatiaux (ancres haute-fidélité) et l'évolution temporelle (tokens résidus-fréquence via DCT 1D). Un Spatial-Guided Absorber aligne les dynamiques fréquentielles avec les embeddings visuels. Résultats : performance proche du full-token avec réduction substantielle de la longueur des tokens.

Lire la source

Ton avis ?

Vision Génération de vidéos Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs

Autres angles sur ce sujet