arXiv cs.CL·28 mai 2026

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Signal

Hype

En 3 lignesLes modèles de langage parlé (SLM) pour la synthèse vocale en langues peu dotées souffrent d'un compromis : les données synthétiques améliorent la précision phonétique mais suppriment la variabilité prosodique (Synthetic Erosion). Les auteurs proposent deux cadres d'auto-alignement (DGSA et TDSC) pour récupérer l'expressivité, surpassant ElevenLabs et Gemini Pro, avec clonage vocal zéro-shot pour le lao.

Lire la source

Ton avis ?

Voix Papers Raisonnement Alignement

Résumé généré par Claude — vérifié par l'humain

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Autres angles sur ce sujet