par chinedudave06
Open source · 257 downloads · 0 likes
MusicGen Medium Stereo ONNX est un modèle d'intelligence artificielle spécialisé dans la génération de musique stéréo à partir de descriptions textuelles. Il produit des morceaux de musique réalistes en exploitant une architecture optimisée pour une exécution efficace sur appareils mobiles ou embarqués. Grâce à sa précision FP16 et à son système de cache KV, il offre un bon équilibre entre qualité audio et performance, tout en réduisant la taille du modèle. Ce modèle est particulièrement adapté aux applications créatives comme les outils de production musicale, les assistants de composition ou les plateformes de streaming. Sa capacité à générer des pistes stéréo directement à partir de texte le distingue des solutions mono ou moins optimisées pour le temps réel.
ONNX export of facebook/musicgen-stereo-medium with KV-cache decoder in FP16 precision for efficient on-device stereo generation.
| Property | Value |
|---|---|
| Base Model | facebook/musicgen-stereo-medium |
| Precision | FP16 |
| Audio | Stereo (2 channels) |
| Codebooks | 8 (4 per channel) |
| Hidden Size | 1536 |
| Sample Rate | 32 kHz |
| Max Length | 1500 steps (~30s) |
| Total Size | ~7.0 GB |
| File | Description | Size |
|---|---|---|
decoder_model.onnx | Step-0 decoder proto | 1.7 MB |
decoder_model.onnx.data | Step-0 FP16 weights | 3.5 GB |
decoder_with_past_model.onnx | KV-cache decoder proto | 1.4 MB |
decoder_with_past_model.onnx.data | KV-cache FP16 weights | 3.1 GB |
text_encoder.onnx | T5 text encoder | 210 MB |
encodec_decode.onnx | EnCodec audio decoder | 57 MB |
tokenizer.json | T5 tokenizer vocabulary | 2.4 MB |
config.json | Model architecture config | <1 KB |
generation_config.json | Generation parameters | <1 KB |
.onnx.data), halving size with minimal quality loss.decode method was monkeypatched during export to handle the 4→8 codebook index mapping.These models are designed for the DJNed Android app using ONNX Runtime.
text_encoder.onnx encodes the text promptdecoder_model.onnx + .data generates the first token + initial KV-cachedecoder_with_past_model.onnx + .data generates subsequent tokensencodec_decode.onnx converts 8 codebook streams to stereo audioThis model is derived from Meta's MusicGen under the CC-BY-NC-4.0 license.