arXiv cs.AI·19 mai 2026

Fourier Compressor: Frequency-Domain Visual Token Compression for Vision-Language Models

Signal

Hype

En 3 lignesFourier Compressor compresse les tokens visuels des Vision-Language Models via transformée de Fourier. La méthode sans paramètres réduit les FLOPs de 83,8% et accélère l'inférence de 31,2% tout en conservant 96% de la précision originale. Testée sur LLaVA et Qwen-VL, elle généralise aussi aux vidéos.

Lire la source

Ton avis ?

Vision Benchmarks Infrastructure

Résumé généré par Claude — vérifié par l'humain

Fourier Compressor: Frequency-Domain Visual Token Compression for Vision-Language Models

Autres angles sur ce sujet