Retour au feed
Reddit r/LocalLLaMA·

I fine-tuned Parakeet 0.6B for medical ASR — open weights, local Mac/CUDA/CPU

Signal
82
Hype
18
En 3 lignesFine-tuning de Parakeet 0.6B pour la transcription médicale en poids ouverts (CC-BY-4.0). Omi Med STT v1 atteint 2.37% M-WER (erreurs sur termes cliniques) vs 8.36% du modèle de base, avec 145× RTFx. Runtime multi-plateforme (MLX/NeMo/GGUF). Benchmark sur 1,513 clips médicaux : surpasse Whisper Large v3 Turbo et Qwen3 ASR en précision clinique.

## Omi Med STT v1 : anatomie d'un fine-tuning médical qui tient ses promesses

### Ce qui s'est passé

Un fondateur de startup (Omi Health) publie les poids d'un modèle ASR médical sous CC-BY-4.0 : Omi Med STT v1, dérivé de Parakeet TDT 0.6B v2 de NVIDIA. Le benchmark couvre 1 513 clips / 7,18 heures d'audio médical retenu, avec une métrique centrale — le M-WER (Word Error Rate restreint aux termes cliniques) — qui est la seule qui compte pour un scribe automatique. Résultat : 2,37% M-WER contre 8,36% pour le modèle de base, soit une réduction de 3,5×. Les mentions erronées de médicaments passent de 131 à 9 sur le jeu de test.

### Pourquoi le ratio taille/performance est le vrai signal

Le seul modèle open-source qui surpasse Omi sur le M-WER est VibeVoice-ASR à 9B paramètres : 1,78% vs 2,37%. Mais VibeVoice pèse ~15× plus lourd, tourne à 11× RTFx contre 145× pour Omi sur A10, et affiche un WER général de 11,10% contre 8,30%. Autrement dit : pour les termes cliniques, VibeVoice gagne d'un cheveu ; sur tout le reste, Omi gagne nettement, en étant 13× plus rapide sur GPU.

La comparaison avec les APIs cloud spécialisées est instructive : Omi se place devant Deepgram Nova-3 Medical (2,44% M-WER) et loin devant Corti Transcripts (5,12%), tout en restant derrière AssemblyAI Universal-3 Pro Medical (1,81%). Le RTFx de 145× est structurellement incomparable aux chiffres cloud (latence réseau incluse), mais l'avantage de latence locale est réel pour les cas d'usage on-device.

### Le détail technique qui mérite attention

Le choix de ne pas shipper le q4 est une décision d'ingénierie honnête : la quantification 4-bit dégradait trop la précision sur les noms de médicaments. Le q8 est le défaut. Le runtime auto-sélectionne le backend : MLX sur Apple Silicon, NeMo sur CUDA, GGUF/parakeet.cpp sur CPU. 127 heures de données d'entraînement audio, mix non divulgué en détail mais le fondateur propose d'en discuter publiquement.

La faiblesse principale est documentée sans détour : 4,75% de Drug M-WER, le pire axe du modèle, annoncé comme priorité n°1 pour v2. C'est cohérent avec la chute de 131 à 9 mentions erronées — le modèle a progressé mais reste le maillon faible sur les noms de molécules complexes.

### Les perdants potentiels

**Deepgram Nova-3 Medical** est directement challengé sur son segment payant : un modèle open-source local le surpasse sur M-WER (2,37% vs 2,44%) avec une latence structurellement inférieure pour les déploiements on-premise. **Corti** (5,12% M-WER, RTFx 0,9×) est dans une position difficile — plus lent que le temps réel et moins précis qu'un modèle 0,6B gratuit. **Google MedASR** affiche 13,86% M-WER, soit 5,8× pire qu'Omi, ce qui pose des questions sur la maturité de cette offre.

Le cas Gemini mérite une mention séparée : sur 420 clips bénins non-diagnostiques, Gemini 3.5 Flash fabrique des consultations entières sur 87/420 cas (20,7%), Gemini 3.1 Pro sur 33/420 (7,9%). Zéro autre modèle ASR dédié ne présente ce comportement. Ce n'est pas un problème de WER — c'est une hallucination clinique structurelle qui rend ces modèles inutilisables pour la transcription médicale sans post-traitement de détection.

### Ce que ça change pour les praticiens

Avant cette release, le choix pour de l'ASR médical local open-source se résumait à Whisper Large v3 Turbo (3,93% M-WER, 46× RTFx) ou les modèles Parakeet non fine-tunés (8%+ M-WER). Omi comble l'écart avec les APIs cloud spécialisées tout en restant on-device. Pour les équipes qui construisent des scribes médicaux avec contrainte de confidentialité des données patients — HIPAA, RGPD, politiques hospitalières — c'est le premier modèle sub-1B qui entre dans la zone de compétitivité réelle avec les solutions commerciales.

La licence CC-BY-4.0 est permissive pour un usage commercial, ce qui distingue cette release des poids sous licences restrictives habituels dans le domaine médical. L'installation en une ligne (`pip install omi-med-stt`) et le runtime multi-plateforme réduisent la friction d'adoption à presque zéro pour un développeur.

Lire la source
Ton avis ?
Open sourceGénération de codeBenchmarksVoixFine-tuning

Résumé généré par Claude — vérifié par l'humain