HEED: Density-Weighted Residual Alignment for Hybrid Vision-Language Model Distillation
HEED propose une méthode d'alignement résiduel pondéré par densité pour distiller des modèles vision-langage (ex. Qwen3-VL-8B) en architectures hybrides Mamba-2/attention. La technique cible les patches haute-densité (texte, détails fins) qui subissent 3.6× plus de dérive résiduelle. Résultats : +8.7 points OCRBench v2, +5.13 points en moyenne, 4.12× throughput, 68% économie mémoire.