Retour au feed
arXiv cs.CL·

Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models

Signal
72
Hype
18
En 3 lignesMéthode pour contrôler finement le style vocal dans les modèles TTS basés sur prompts. Interpolation entre styles via vecteurs directionnels dans l'espace d'embedding (99-100% succès conversion genre, variation pitch 36 Hz). Transitions intra-énoncé via KV-cache swapping et sliding-window attention masking (similarité locuteur 0.81-0.91).
Lire la source
Ton avis ?
VoixPrompt engineeringPapers

Résumé généré par Claude — vérifié par l'humain