Retour au feed
Reddit r/MachineLearning·

noisekit - CLI for generating realistic degraded speech datasets for ASR benchmarking [P]

Signal
72
Hype
25
En 3 lignesnoisekit est un CLI open-source pour générer des datasets de parole dégradée annotés, permettant de benchmarker les modèles STT sur des conditions réalistes (télécom G.711, bruit ambiant, réverbération). Résout le problème : les datasets publics (FLEURS, CommonVoice) sont trop propres pour évaluer la performance en production. Compatible HuggingFace AudioFolder, inclut métriques PESQ/SNR/NISQA.
Lire la source
Ton avis ?
VoixÉvaluationsBenchmarksOpen sourceOutils

Résumé généré par Claude — vérifié par l'humain