par DeepDiveDev
Open source · 150 downloads · 0 likes
Ce modèle est une version adaptée de SpeechT5, spécialement fine-tunée pour la synthèse vocale en bengali. Il permet de transformer du texte en parole avec une voix naturelle et fluide, en s'appuyant sur les capacités de génération vocale du modèle de base. Ses principaux cas d'usage incluent la création de contenus audio pour des applications éducatives, des assistants vocaux ou des services de lecture pour malvoyants. Ce qui le distingue est sa spécialisation sur le bengali, une langue peu représentée dans les modèles de TTS, offrant ainsi une solution adaptée aux besoins linguistiques spécifiques de cette région.
This model is a fine-tuned version of microsoft/speecht5_tts on an unknown dataset. It achieves the following results on the evaluation set:
More information needed
More information needed
More information needed
The following hyperparameters were used during training:
| Training Loss | Epoch | Step | Validation Loss |
|---|---|---|---|
| 6.1441 | 1.9422 | 100 | 0.7127 |
| 5.5876 | 3.8988 | 200 | 0.6550 |
| 5.2451 | 5.8554 | 300 | 0.6514 |
| 5.1514 | 7.8120 | 400 | 0.6227 |
| 4.9727 | 9.7687 | 500 | 0.6220 |
| 4.9797 | 11.7253 | 600 | 0.6190 |