Retour au feed
arXiv cs.CL·

FastOCR: Dynamic Visual Fixation via KV Cache Pruning for Efficient Document Parsing

Signal
78
Hype
15
En 3 lignesFastOCR propose un framework sans entraînement pour accélérer l'OCR sur Vision-Language Models en exploitant la fixation visuelle dynamique. Via pruning du cache KV, le modèle réduit les tokens visuels traités à 5% par étape de décodage tout en conservant 98% de précision sur Qwen2.5-VL, divisant la latence d'attention par 3.0×.
Lire la source
Ton avis ?
VisionRaisonnementBenchmarksGénération de code

Résumé généré par Claude — vérifié par l'humain