MusicGen Medium Stereo — ONNX FP16 (KV-Cache)

ONNX export of facebook/musicgen-stereo-medium with KV-cache decoder in FP16 precision for efficient on-device stereo generation.

Property	Value
Base Model	`facebook/musicgen-stereo-medium`
Precision	FP16
Audio	Stereo (2 channels)
Codebooks	8 (4 per channel)
Hidden Size	1536
Sample Rate	32 kHz
Max Length	1500 steps (~30s)
Total Size	~7.0 GB

File	Description	Size
`decoder_model.onnx`	Step-0 decoder proto	1.7 MB
`decoder_model.onnx.data`	Step-0 FP16 weights	3.5 GB
`decoder_with_past_model.onnx`	KV-cache decoder proto	1.4 MB
`decoder_with_past_model.onnx.data`	KV-cache FP16 weights	3.1 GB
`text_encoder.onnx`	T5 text encoder	210 MB
`encodec_decode.onnx`	EnCodec audio decoder	57 MB
`tokenizer.json`	T5 tokenizer vocabulary	2.4 MB
`config.json`	Model architecture config	<1 KB
`generation_config.json`	Generation parameters	<1 KB

Stereo: Uses 8 codebooks (4 per audio channel). The EnCodec decoder handles channel splitting internally.
FP16: Decoder weights stored in FP16 via ONNX external data (.onnx.data), halving size with minimal quality loss.
Export fix: EnCodec quantizer's decode method was monkeypatched during export to handle the 4→8 codebook index mapping.

These models are designed for the DJNed Android app using ONNX Runtime.

Text encoding: text_encoder.onnx encodes the text prompt
Step 0: decoder_model.onnx + .data generates the first token + initial KV-cache
Steps 1+: decoder_with_past_model.onnx + .data generates subsequent tokens
Audio decode: encodec_decode.onnx converts 8 codebook streams to stereo audio

This model is derived from Meta's MusicGen under the CC-BY-NC-4.0 license.

MusicGen Medium Stereo — ONNX FP16 (KV-Cache)

ONNX export of facebook/musicgen-stereo-medium with KV-cache decoder in FP16 precision for efficient on-device stereo generation.

Model Details

Property	Value
Base Model	`facebook/musicgen-stereo-medium`
Precision	FP16
Audio	Stereo (2 channels)
Codebooks	8 (4 per channel)
Hidden Size	1536
Sample Rate	32 kHz
Max Length	1500 steps (~30s)
Total Size	~7.0 GB

Files

File	Description	Size
`decoder_model.onnx`	Step-0 decoder proto	1.7 MB
`decoder_model.onnx.data`	Step-0 FP16 weights	3.5 GB
`decoder_with_past_model.onnx`	KV-cache decoder proto	1.4 MB
`decoder_with_past_model.onnx.data`	KV-cache FP16 weights	3.1 GB
`text_encoder.onnx`	T5 text encoder	210 MB
`encodec_decode.onnx`	EnCodec audio decoder	57 MB
`tokenizer.json`	T5 tokenizer vocabulary	2.4 MB
`config.json`	Model architecture config	<1 KB
`generation_config.json`	Generation parameters	<1 KB

Stereo + FP16 Notes

Stereo: Uses 8 codebooks (4 per audio channel). The EnCodec decoder handles channel splitting internally.

FP16: Decoder weights stored in FP16 via ONNX external data (.onnx.data), halving size with minimal quality loss.

Export fix: EnCodec quantizer's decode method was monkeypatched during export to handle the 4→8 codebook index mapping.

Usage

These models are designed for the DJNed Android app using ONNX Runtime.

Pipeline

Text encoding: text_encoder.onnx encodes the text prompt

Step 0: decoder_model.onnx + .data generates the first token + initial KV-cache

Steps 1+: decoder_with_past_model.onnx + .data generates subsequent tokens

Audio decode: encodec_decode.onnx converts 8 codebook streams to stereo audio

License

This model is derived from Meta's MusicGen under the CC-BY-NC-4.0 license.

musicgen medium stereo onnx