arXiv cs.CL·19 mai 2026

FastOCR: Dynamic Visual Fixation via KV Cache Pruning for Efficient Document Parsing

Signal

Hype

En 3 lignesFastOCR propose un framework sans entraînement pour accélérer l'OCR sur Vision-Language Models en exploitant la fixation visuelle dynamique. Via pruning du cache KV, le modèle réduit les tokens visuels traités à 5% par étape de décodage tout en conservant 98% de précision sur Qwen2.5-VL, divisant la latence d'attention par 3.0×.

Lire la source

Ton avis ?

Vision Raisonnement Benchmarks Génération de code

Résumé généré par Claude — vérifié par l'humain

FastOCR: Dynamic Visual Fixation via KV Cache Pruning for Efficient Document Parsing

Autres angles sur ce sujet