AI/EXPLORER
OutilsCatégoriesSitesLLMsComparerQuiz IAAlternativesPremium
—Outils IA
—Sites & Blogs
—LLMs & Modèles
—Catégories
AI Explorer

Trouvez et comparez les meilleurs outils d'intelligence artificielle pour vos projets.

Fait avecen France

Explorer

  • ›Tous les outils
  • ›Sites & Blogs
  • ›LLMs & Modèles
  • ›Comparer
  • ›Chatbots
  • ›Images IA
  • ›Code & Dev

Entreprise

  • ›Premium
  • ›À propos
  • ›Contact
  • ›Blog

Légal

  • ›Mentions légales
  • ›Confidentialité
  • ›CGV

© 2026 AI Explorer·Tous droits réservés.

AccueilLLMssenga nt asr inferred force aligned speecht5 MAT ACT

senga nt asr inferred force aligned speecht5 MAT ACT

par sil-ai

Open source · 249 downloads · 0 likes

0.0
(0 avis)AudioAPI & Local
À propos

Ce modèle est une version fine-tunée de SpeechT5, spécialisée dans la reconnaissance automatique de la parole (ASR) avec alignement forcé et inférence. Il transforme des enregistrements audio en texte transcrit avec une grande précision, en exploitant les capacités de SpeechT5 tout en optimisant ses performances pour des tâches de transcription. Ses principaux cas d'usage incluent la transcription de discours, la génération de sous-titres automatiques ou encore l'analyse de contenu audio pour des applications professionnelles ou grand public. Ce qui le distingue est son approche hybride combinant alignement forcé et inférence, améliorant la synchronisation entre l'audio et le texte généré. Il se positionne comme une solution robuste pour des besoins de transcription nécessitant à la fois rapidité et fiabilité.

Documentation

senga-nt-asr-inferred-force-aligned-speecht5-MAT-ACT

This model is a fine-tuned version of microsoft/speecht5_tts on the None dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1760

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.0001
  • train_batch_size: 8
  • eval_batch_size: 8
  • seed: 3407
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 32
  • optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • lr_scheduler_warmup_steps: 200
  • num_epochs: 600.0
  • mixed_precision_training: Native AMP

Training results

Training LossEpochStepValidation Loss
0.186930.303010000.1695
0.161260.606120000.1583
0.139990.909130000.1664
0.1301121.212140000.1640
0.1208151.515250000.1699
0.1161181.818260000.1746
0.108212.121270000.1673
0.0945242.424280000.1804
0.1044272.727390000.1787
0.0929303.0303100000.1756
0.0845333.3333110000.1701
0.0894363.6364120000.1739
0.0813393.9394130000.1667
0.0818424.2424140000.1740
0.0769454.5455150000.1719
0.0788484.8485160000.1780
0.0759515.1515170000.1745
0.0933545.4545180000.1754
0.0764575.7576190000.1760

Framework versions

  • Transformers 4.57.1
  • Pytorch 2.8.0+cu128
  • Datasets 4.2.0
  • Tokenizers 0.22.1
Liens & Ressources
Spécifications
CatégorieAudio
AccèsAPI & Local
LicenceOpen Source
TarificationOpen Source
Note
0.0

Essayer senga nt asr inferred force aligned speecht5 MAT ACT

Accédez directement au modèle