arXiv cs.CL·26 mai 2026

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Signal

Hype

En 3 lignesDes chercheurs appliquent Direct Preference Optimization (DPO) pour améliorer la transcription code-switching anglais-mandarin dans les Audio LLMs. Trois modes d'échec identifiés : omission de langue, traduction au lieu de transcription, hallucination. Entraînement sur 100K paires (570 heures) réduit le MER jusqu'à 89,6% (in-distribution) et 20,0% (out-of-distribution).

Lire la source

Ton avis ?

Reinforcement learning Alignement Voix Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Autres angles sur ce sujet