arXiv cs.CL·19 mai 2026

PAREDA: A Multi-Accent Speech Dataset of Natural Language Processing Research Discussions

Signal

Hype

En 3 lignesPAREDA est un dataset de parole multi-accent (australien, indien, chinois) contenant des discussions spontanées sur des articles NLP. Les modèles ASR actuels montrent une dégradation de performance en zéro-shot, mais le fine-tuning réduit significativement le WER, validant la richesse du corpus en jargon technique et phénomènes conversationnels.

Lire la source

Ton avis ?

Voix Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

PAREDA: A Multi-Accent Speech Dataset of Natural Language Processing Research Discussions

Autres angles sur ce sujet