AI/EXPLORER
OutilsCatégoriesSitesLLMsComparerQuiz IAAlternativesPremium
—Outils IA
—Sites & Blogs
—LLMs & Modèles
—Catégories
AI Explorer

Trouvez et comparez les meilleurs outils d'intelligence artificielle pour vos projets.

Fait avecen France

Explorer

  • ›Tous les outils
  • ›Sites & Blogs
  • ›LLMs & Modèles
  • ›Comparer
  • ›Chatbots
  • ›Images IA
  • ›Code & Dev

Entreprise

  • ›Premium
  • ›À propos
  • ›Contact
  • ›Blog

Légal

  • ›Mentions légales
  • ›Confidentialité
  • ›CGV

© 2026 AI Explorer·Tous droits réservés.

AccueilLLMsAudiofastspeech2 conformer with hifigan

fastspeech2 conformer with hifigan

par espnet

Open source · 735 downloads · 1 likes

0.4
(1 avis)AudioAPI & Local
À propos

Ce modèle combine FastSpeech2Conformer, un système de synthèse vocale non autorégressif, avec le vocodeur HiFi-GAN pour transformer du texte en parole de haute qualité. Il exploite l'architecture Conformer, qui allie l'efficacité de FastSpeech2 et les avantages des réseaux de convolution et d'attention, pour générer rapidement des spectrogrammes mél. Grâce à HiFi-GAN, ces spectrogrammes sont ensuite convertis en ondes sonores naturelles et fluides. Idéal pour des applications nécessitant une synthèse vocale rapide et réaliste, comme les assistants vocaux, les livres audio ou les outils de communication pour malvoyants, il se distingue par sa rapidité et sa qualité sonore supérieure par rapport aux modèles traditionnels.

Documentation

FastSpeech2ConformerWithHifiGan

This model combines FastSpeech2Conformer and FastSpeech2ConformerHifiGan into one model for a simpler and more convenient usage.

FastSpeech2Conformer is a non-autoregressive text-to-speech (TTS) model that combines the strengths of FastSpeech2 and the conformer architecture to generate high-quality speech from text quickly and efficiently, and the HiFi-GAN vocoder is used to turn generated mel-spectrograms into speech waveforms.

🤗 Transformers Usage

You can run FastSpeech2Conformer locally with the 🤗 Transformers library.

  1. First install the 🤗 Transformers library and g2p-en:
CSS
pip install --upgrade pip
pip install --upgrade transformers g2p-en
  1. Run inference via the Transformers modelling code with the model and hifigan combined
Python

from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerWithHifiGan
import soundfile as sf

tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]

model = FastSpeech2ConformerWithHifiGan.from_pretrained("espnet/fastspeech2_conformer_with_hifigan")
output_dict = model(input_ids, return_dict=True)
waveform = output_dict["waveform"]

sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)
Liens & Ressources
Spécifications
CatégorieAudio
AccèsAPI & Local
LicenceOpen Source
TarificationOpen Source
Note
0.4

Essayer fastspeech2 conformer with hifigan

Accédez directement au modèle