AI/EXPLORER
OutilsCatégoriesSitesLLMsComparerQuiz IAAlternativesPremium
—Outils IA
—Sites & Blogs
—LLMs & Modèles
—Catégories
AI Explorer

Trouvez et comparez les meilleurs outils d'intelligence artificielle pour vos projets.

Fait avecen France

Explorer

  • ›Tous les outils
  • ›Sites & Blogs
  • ›LLMs & Modèles
  • ›Comparer
  • ›Chatbots
  • ›Images IA
  • ›Code & Dev

Entreprise

  • ›Premium
  • ›À propos
  • ›Contact
  • ›Blog

Légal

  • ›Mentions légales
  • ›Confidentialité
  • ›CGV

© 2026 AI Explorer·Tous droits réservés.

AccueilLLMsmusicgen medium stereo onnx

musicgen medium stereo onnx

par chinedudave06

Open source · 257 downloads · 0 likes

0.0
(0 avis)AudioAPI & Local
À propos

MusicGen Medium Stereo ONNX est un modèle d'intelligence artificielle spécialisé dans la génération de musique stéréo à partir de descriptions textuelles. Il produit des morceaux de musique réalistes en exploitant une architecture optimisée pour une exécution efficace sur appareils mobiles ou embarqués. Grâce à sa précision FP16 et à son système de cache KV, il offre un bon équilibre entre qualité audio et performance, tout en réduisant la taille du modèle. Ce modèle est particulièrement adapté aux applications créatives comme les outils de production musicale, les assistants de composition ou les plateformes de streaming. Sa capacité à générer des pistes stéréo directement à partir de texte le distingue des solutions mono ou moins optimisées pour le temps réel.

Documentation

MusicGen Medium Stereo — ONNX FP16 (KV-Cache)

ONNX export of facebook/musicgen-stereo-medium with KV-cache decoder in FP16 precision for efficient on-device stereo generation.

Model Details

PropertyValue
Base Modelfacebook/musicgen-stereo-medium
PrecisionFP16
AudioStereo (2 channels)
Codebooks8 (4 per channel)
Hidden Size1536
Sample Rate32 kHz
Max Length1500 steps (~30s)
Total Size~7.0 GB

Files

FileDescriptionSize
decoder_model.onnxStep-0 decoder proto1.7 MB
decoder_model.onnx.dataStep-0 FP16 weights3.5 GB
decoder_with_past_model.onnxKV-cache decoder proto1.4 MB
decoder_with_past_model.onnx.dataKV-cache FP16 weights3.1 GB
text_encoder.onnxT5 text encoder210 MB
encodec_decode.onnxEnCodec audio decoder57 MB
tokenizer.jsonT5 tokenizer vocabulary2.4 MB
config.jsonModel architecture config<1 KB
generation_config.jsonGeneration parameters<1 KB

Stereo + FP16 Notes

  • Stereo: Uses 8 codebooks (4 per audio channel). The EnCodec decoder handles channel splitting internally.
  • FP16: Decoder weights stored in FP16 via ONNX external data (.onnx.data), halving size with minimal quality loss.
  • Export fix: EnCodec quantizer's decode method was monkeypatched during export to handle the 4→8 codebook index mapping.

Usage

These models are designed for the DJNed Android app using ONNX Runtime.

Pipeline

  1. Text encoding: text_encoder.onnx encodes the text prompt
  2. Step 0: decoder_model.onnx + .data generates the first token + initial KV-cache
  3. Steps 1+: decoder_with_past_model.onnx + .data generates subsequent tokens
  4. Audio decode: encodec_decode.onnx converts 8 codebook streams to stereo audio

License

This model is derived from Meta's MusicGen under the CC-BY-NC-4.0 license.

Liens & Ressources
Spécifications
CatégorieAudio
AccèsAPI & Local
LicenceOpen Source
TarificationOpen Source
Note
0.0

Essayer musicgen medium stereo onnx

Accédez directement au modèle