Retour au feed
arXiv cs.AI·

Fourier Compressor: Frequency-Domain Visual Token Compression for Vision-Language Models

Signal
78
Hype
25
En 3 lignesFourier Compressor compresse les tokens visuels des Vision-Language Models via transformée de Fourier. La méthode sans paramètres réduit les FLOPs de 83,8% et accélère l'inférence de 31,2% tout en conservant 96% de la précision originale. Testée sur LLaVA et Qwen-VL, elle généralise aussi aux vidéos.
Lire la source
Ton avis ?
VisionBenchmarksInfrastructure

Résumé généré par Claude — vérifié par l'humain