par ACE-Step
Open source · 3k downloads · 64 likes
ACE-Step 1.5 XL SFT est un modèle d'IA spécialisé dans la génération musicale de haute qualité, doté de 4 milliards de paramètres. Il permet de créer des morceaux de musique à partir de descriptions textuelles tout en offrant un contrôle précis sur l'adhérence aux prompts grâce à la guidance sans classificateur (CFG). Conçu pour un usage commercial, il s'appuie sur des données d'entraînement légalement conformes, incluant des musiques sous licence, des œuvres libres de droits et des synthèses audio à partir de partitions MIDI. Ce modèle se distingue par sa capacité à produire des résultats professionnels, adaptés aussi bien aux créateurs de contenu qu'aux artistes ou aux développeurs d'applications musicales. Son architecture optimisée et ses fonctionnalités avancées en font une solution polyvalente pour la composition automatisée ou assistée.
Project | Hugging Face | ModelScope | Space Demo | Discord | Tech Report
This is the XL (4B) SFT variant of ACE-Step 1.5 — a supervised fine-tuned model with ~4B parameters. SFT provides higher audio quality with CFG (Classifier-Free Guidance) support for fine-grained prompt adherence control.
| Parameter | Value |
|---|---|
| DiT Decoder hidden_size | 2560 |
| DiT Decoder layers | 32 |
| DiT Decoder attention heads | 32 |
| Encoder hidden_size | 2048 |
| Encoder layers | 8 |
| Total params | ~4B |
| Weights size (bf16) | ~18.8 GB |
| Inference steps | 50 (with CFG) |
| VRAM | Support |
|---|---|
| ≥12 GB | With CPU offload + INT8 quantization |
| ≥16 GB | With CPU offload |
| ≥20 GB | Without offload |
| ≥24 GB | Full quality (XL + 4B LM) |
All LM models (0.6B / 1.7B / 4B) are fully compatible with XL.
# Install ACE-Step
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5
pip install -e .
# Download this model
huggingface-cli download ACE-Step/acestep-v15-xl-sft --local-dir ./checkpoints/acestep-v15-xl-sft
# Run with Gradio UI
python acestep --config-path acestep-v15-xl-sft
| DiT Model | CFG | Steps | Quality | Diversity | Tasks | Hugging Face | ModelScope |
|---|---|---|---|---|---|---|---|
acestep-v15-xl-base | ✅ | 50 | High | High | All (extract, lego, complete) | Link | Link |
acestep-v15-xl-sft | ✅ | 50 | Very High | Medium | Standard | This repo | Link |
acestep-v15-xl-turbo | ❌ | 8 | Very High | Medium | Standard | Link | Link |
| LM Model | Params | Audio Understanding | Composition | Hugging Face | ModelScope |
|---|---|---|---|---|---|
acestep-5Hz-lm-0.6B | 0.6B | Medium | Medium | Link | Link |
acestep-5Hz-lm-1.7B | 1.7B | Medium | Medium | Included in main | Included in main |
acestep-5Hz-lm-4B | 4B | Strong | Strong | Link | Link |
This project is co-led by ACE Studio and StepFun.
@misc{gong2026acestep,
title={ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation},
author={Junmin Gong, Yulin Song, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
howpublished={\url{https://github.com/ace-step/ACE-Step-1.5}},
year={2026},
note={GitHub repository}
}