arXiv cs.CL·28 mai 2026

Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models

Signal

Hype

En 3 lignesMéthode pour contrôler finement le style vocal dans les modèles TTS basés sur prompts. Interpolation entre styles via vecteurs directionnels dans l'espace d'embedding (99-100% succès conversion genre, variation pitch 36 Hz). Transitions intra-énoncé via KV-cache swapping et sliding-window attention masking (similarité locuteur 0.81-0.91).

Lire la source

Ton avis ?

Voix Prompt engineering Papers

Résumé généré par Claude — vérifié par l'humain

Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models

Autres angles sur ce sujet