Retour au feed
Reddit r/MachineLearning·

What will be the next breakthrough in ASR? [D]

Signal
35
Hype
25
En 3 lignesDiscussion sur l'évolution des modèles ASR : Whisper-large-v3 (5M heures) et Nvidia Parakeet v3 (660k heures) dominent via l'apprentissage supervisé. Nouvelles architectures (Transducer, Token-Duration-Transducers, attention encoder-decoder Qwen) remplacent CTC+self-supervised. Question : l'auto-supervision (Data2Vec2.0, WavLM) disparaîtra-t-elle pour l'ASR ou aura-t-on un moment « Dino » en speech ?
Lire la source
Ton avis ?
VoixBenchmarksOpen source

Résumé généré par Claude — vérifié par l'humain