Retour au feed
arXiv cs.CL·

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Signal
72
Hype
28
En 3 lignesLes modèles de langage parlé (SLM) pour la synthèse vocale en langues peu dotées souffrent d'un compromis : les données synthétiques améliorent la précision phonétique mais suppriment la variabilité prosodique (Synthetic Erosion). Les auteurs proposent deux cadres d'auto-alignement (DGSA et TDSC) pour récupérer l'expressivité, surpassant ElevenLabs et Gemini Pro, avec clonage vocal zéro-shot pour le lao.
Lire la source
Ton avis ?
VoixPapersRaisonnementAlignement

Résumé généré par Claude — vérifié par l'humain