llama.cpp MTP support landed - Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig
Le support MTP (speculative decoding) a été intégré à llama.cpp (PR #22673, 16 mai). Tests sur Qwen 3.6 27B : gains de 1.81× à 2.44× sur Strix Halo (ROCm), 1.54× à 2.17× sur RTX 3090. MoE 35B-A3B moins bénéficiaire (1.24×-1.40×). Activation : --spec-type draft-mtp --spec-draft-n-max N.