clvp dev

par susnato

Open source · 114k downloads · 0 likes

0.0

(0 avis)EmbeddingAPI & Local

À propos

Le modèle CLVP Dev est un composant clé du système de synthèse vocale Tortoise-TTS, conçu pour améliorer la qualité de la génération de parole. Il s’appuie sur une architecture inspirée de CLIP, mais utilise deux encodeurs distincts : l’un pour traiter les tokens textuels et l’autre pour les tokens MEL, qui représentent les caractéristiques spectrales du signal audio. Cette approche permet une meilleure correspondance entre le texte et la voix générée, offrant des résultats plus naturels et expressifs. Ses principaux cas d’usage incluent la création de voix off, la génération de dialogues pour des personnages virtuels ou la production de contenus audio à partir de texte. Ce qui le distingue, c’est sa capacité à capturer finement les nuances du langage tout en maintenant une cohérence prosodique, grâce à l’interaction entre les deux encodeurs.

Documentation

DISCLAIMER : I do not own any weights present in this repository. All weights belong to the author of the paper - "Better speech synthesis through scaling", James Betker . I am storing the weights(temporarily) for the tortoise-tts integration to Huggingface. Please refer to this PR to know more.

About

CLVP model is an integral part of tortoise-tts presented in the paper - "Better speech synthesis through scaling" by James Betker. CLVP uses an architecture similar to the CLIP text encoder, except it uses two of them: one for text tokens and the other for MEL tokens.

Liens & Ressources