Retour au feed
arXiv cs.AI·

Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs

Signal
72
Hype
18
En 3 lignesFre-Res propose une compression adaptative des tokens vidéo pour les MLLMs vidéo. Le framework sépare les détails spatiaux (ancres haute-fidélité) et l'évolution temporelle (tokens résidus-fréquence via DCT 1D). Un Spatial-Guided Absorber aligne les dynamiques fréquentielles avec les embeddings visuels. Résultats : performance proche du full-token avec réduction substantielle de la longueur des tokens.
Lire la source
Ton avis ?
VisionGénération de vidéosÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain