FastOCR: Dynamic Visual Fixation via KV Cache Pruning for Efficient Document Parsing
Signal
78
Hype
15
En 3 lignesFastOCR propose un framework sans entraînement pour accélérer l'OCR sur Vision-Language Models en exploitant la fixation visuelle dynamique. Via pruning du cache KV, le modèle réduit les tokens visuels traités à 5% par étape de décodage tout en conservant 98% de précision sur Qwen2.5-VL, divisant la latence d'attention par 3.0×.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain