Speculative Decoding for 2x Faster Whisper Inference
Hugging Face implémente le speculative decoding pour accélérer Whisper de 2x. La technique utilise un modèle léger pour générer des tokens candidats, validés par le modèle complet en parallèle, réduisant la latence sans perte de qualité.