arXiv cs.AI·19 May 2026

Fourier Compressor: Frequency-Domain Visual Token Compression for Vision-Language Models

Signal

Hype

In three linesFourier Compressor compresses visual tokens in Vision-Language Models using Fourier transforms. The parameter-free method reduces FLOPs by 83.8% and boosts inference speed by 31.2% while retaining 96% of original accuracy. Tested on LLaVA and Qwen-VL, it generalizes to video understanding tasks.

Read source

Your take?

Vision Benchmarks Infrastructure

Summary generated by Claude — human-verified

Fourier Compressor: Frequency-Domain Visual Token Compression for Vision-Language Models

Other angles on this story