AI/EXPLORER
OutilsCatégoriesSitesLLMsComparerQuiz IAAlternativesPremium
—Outils IA
—Sites & Blogs
—LLMs & Modèles
—Catégories
AI Explorer

Trouvez et comparez les meilleurs outils d'intelligence artificielle pour vos projets.

Fait avecen France

Explorer

  • ›Tous les outils
  • ›Sites & Blogs
  • ›LLMs & Modèles
  • ›Comparer
  • ›Chatbots
  • ›Images IA
  • ›Code & Dev

Entreprise

  • ›Premium
  • ›À propos
  • ›Contact
  • ›Blog

Légal

  • ›Mentions légales
  • ›Confidentialité
  • ›CGV

© 2026 AI Explorer·Tous droits réservés.

AccueilLLMsmusicgen small stereo onnx

musicgen small stereo onnx

par chinedudave06

Open source · 270 downloads · 0 likes

0.0
(0 avis)AudioAPI & Local
À propos

MusicGen Small Stereo ONNX est un modèle d'intelligence artificielle spécialisé dans la génération de musique stéréo à partir de descriptions textuelles. Il exploite une version optimisée pour les appareils mobiles, intégrant un mécanisme de cache de clés et valeurs (KV-cache) pour accélérer la génération musicale de manière autoregressive. Le modèle se distingue par sa capacité à produire des morceaux en stéréo, avec une qualité sonore améliorée grâce à l'utilisation de 8 codebooks (4 par canal audio). Il est particulièrement adapté aux applications mobiles comme DJNed, où il permet de générer rapidement des musiques personnalisées à partir de prompts textuels. Son export en format ONNX le rend efficace pour une exécution locale, même sur des appareils aux ressources limitées.

Documentation

MusicGen Small Stereo — ONNX (KV-Cache)

ONNX export of facebook/musicgen-stereo-small with KV-cache decoder for efficient on-device autoregressive generation.

Model Details

PropertyValue
Base Modelfacebook/musicgen-stereo-small
PrecisionFP32
AudioStereo (2 channels)
Codebooks8 (4 per channel)
Hidden Size1024
Sample Rate32 kHz
Max Length1500 steps (~30s)
Total Size~3.7 GB

Files

FileDescriptionSize
decoder_model.onnxStep-0 decoder (no KV-cache)1.7 GB
decoder_with_past_model.onnxSteps 1+ decoder (with KV-cache)1.5 GB
text_encoder.onnxT5 text encoder419 MB
encodec_decode.onnxEnCodec audio decoder113 MB
tokenizer.jsonT5 tokenizer vocabulary2.4 MB
config.jsonModel architecture config<1 KB
generation_config.jsonGeneration parameters<1 KB

Stereo Export Notes

The stereo model uses 8 codebooks (4 per audio channel). During export, the EnCodec quantizer's decode method was monkeypatched to handle the codebook index mismatch (EnCodec has 4 physical layers, but stereo needs 8 codebook indices). The exported EnCodec ONNX is replaced with the mono version, which handles both mono and stereo decoding.

Usage

These models are designed for the DJNed Android app using ONNX Runtime.

Pipeline

  1. Text encoding: text_encoder.onnx encodes the text prompt
  2. Step 0: decoder_model.onnx generates the first token + initial KV-cache
  3. Steps 1+: decoder_with_past_model.onnx generates subsequent tokens using KV-cache
  4. Audio decode: encodec_decode.onnx converts 8 codebook streams (4 per channel) to stereo audio

License

This model is derived from Meta's MusicGen under the CC-BY-NC-4.0 license.

Liens & Ressources
Spécifications
CatégorieAudio
AccèsAPI & Local
LicenceOpen Source
TarificationOpen Source
Note
0.0

Essayer musicgen small stereo onnx

Accédez directement au modèle