arXiv cs.CL·26 May 2026

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Signal

Hype

In three linesResearchers apply Direct Preference Optimization (DPO) to improve English-Mandarin code-switching transcription in Audio LLMs. Three failure modes identified: language omission, translation-instead-of-transcription, hallucination. Training on 100K pairs (570 hours) reduces MER up to 89.6% (in-distribution) and 20.0% (out-of-distribution).

Read source

Your take?

Reinforcement learning Alignment Voice Benchmarks Papers

Summary generated by Claude — human-verified

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Other angles on this story