par susnato
Open source · 114k downloads · 0 likes
Le modèle CLVP Dev est un composant clé du système de synthèse vocale Tortoise-TTS, conçu pour améliorer la qualité de la génération de parole. Il s’appuie sur une architecture inspirée de CLIP, mais utilise deux encodeurs distincts : l’un pour traiter les tokens textuels et l’autre pour les tokens MEL, qui représentent les caractéristiques spectrales du signal audio. Cette approche permet une meilleure correspondance entre le texte et la voix générée, offrant des résultats plus naturels et expressifs. Ses principaux cas d’usage incluent la création de voix off, la génération de dialogues pour des personnages virtuels ou la production de contenus audio à partir de texte. Ce qui le distingue, c’est sa capacité à capturer finement les nuances du langage tout en maintenant une cohérence prosodique, grâce à l’interaction entre les deux encodeurs.
DISCLAIMER : I do not own any weights present in this repository. All weights belong to the author of the
paper - "Better speech synthesis through scaling", James Betker . I am storing the weights(temporarily) for the tortoise-tts integration
to Huggingface. Please refer to this PR to know more.
CLVP model is an integral part of tortoise-tts presented in the paper - "Better speech synthesis through scaling" by James Betker.
CLVP uses an architecture similar to the CLIP text encoder, except it uses two of them: one for text
tokens and the other for MEL tokens.