arXiv cs.CL·19 May 2026

PAREDA: A Multi-Accent Speech Dataset of Natural Language Processing Research Discussions

Signal

Hype

In three linesPAREDA is a multi-accent speech dataset (Australian, Indian, Chinese English) featuring spontaneous discussions on NLP papers. Current SOTA ASR models degrade in zero-shot settings, but fine-tuning on PAREDA significantly reduces WER, validating the corpus's richness in technical jargon and conversational phenomena.

Read source

Your take?

Voice Benchmarks Papers

Summary generated by Claude — human-verified

PAREDA: A Multi-Accent Speech Dataset of Natural Language Processing Research Discussions

Other angles on this story