Reddit r/MachineLearning·9 juin 2026

What will be the next breakthrough in ASR? [D]

Signal

Hype

En 3 lignesDiscussion sur l'évolution des modèles ASR : Whisper-large-v3 (5M heures) et Nvidia Parakeet v3 (660k heures) dominent via l'apprentissage supervisé. Nouvelles architectures (Transducer, Token-Duration-Transducers, attention encoder-decoder Qwen) remplacent CTC+self-supervised. Question : l'auto-supervision (Data2Vec2.0, WavLM) disparaîtra-t-elle pour l'ASR ou aura-t-on un moment « Dino » en speech ?

Lire la source

Ton avis ?

Voix Benchmarks Open source

Résumé généré par Claude — vérifié par l'humain

What will be the next breakthrough in ASR? [D]

Autres angles sur ce sujet