What will be the next breakthrough in ASR? [D]
Signal
35
Hype
25
En 3 lignesDiscussion sur l'évolution des modèles ASR : Whisper-large-v3 (5M heures) et Nvidia Parakeet v3 (660k heures) dominent via l'apprentissage supervisé. Nouvelles architectures (Transducer, Token-Duration-Transducers, attention encoder-decoder Qwen) remplacent CTC+self-supervised. Question : l'auto-supervision (Data2Vec2.0, WavLM) disparaîtra-t-elle pour l'ASR ou aura-t-on un moment « Dino » en speech ?Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain