par ACE-Step
Open source · 291 downloads · 33 likes
ACE Step v1 Chinese Rap LoRA est un modèle spécialisé dans la génération de voix rap en mandarin, entraîné sur des datasets soigneusement sélectionnés et nettoyés pour capturer les nuances stylistiques du hip-hop et de la musique électronique chinoise. Il excelle par sa précision phonétique en mandarin, sa capacité à reproduire fidèlement les techniques vocales propres au rap (comme le *mumble rap* ou le *trap flow*), et son aptitude à générer des expressions vocales variées, allant des flows mélodiques aux effets stylisés. Le modèle permet de créer des morceaux originaux, d’enrichir des productions existantes avec des influences underground ou expérimentales, ou encore de fusionner le rap chinois avec d’autres genres musicaux pour des résultats plus riches et détaillés. Ce qui le distingue, c’est son approche hybride qui combine une base musicale solide (via ACE-Step) avec des contrôles vocaux précis, offrant aux utilisateurs la possibilité d’ajuster des paramètres comme le timbre, la clarté ou les techniques de livraison pour adapter la sortie à leurs besoins créatifs. Bien que conçu pour le rap chinois, il illustre aussi le potentiel universel d’ACE-Step comme modèle de génération musicale, capable de transcender les barrières linguistiques et culturelles pour inspirer de nouvelles formes d’expression artistique.
This is a hybrid rap voice model. We meticulously curated Chinese rap/hip-hop datasets for training, with rigorous data cleaning and recaptioning. The results demonstrate:
Audio Examples see: https://ace-step.github.io/#RapMachine
Vocal Controls
vocal_timbre
techniques (List)
mumble rap, chopper rap, melodic rap, lyrical rap, trap flow, double-time rapauto-tune, reverb, delay, distortionwhispered, shouted, spoken word, narration, singingad-libs, call-and-response, harmonizedWhile a Chinese rap LoRA might seem niche for non-Chinese communities, we consistently demonstrate through such projects that ACE-step - as a music generation foundation model - holds boundless potential. It doesn't just improve pronunciation in one language, but spawns new styles.
The universal human appreciation of music is a precious asset. Like abstract LEGO blocks, these elements will eventually combine in more organic ways. May our open-source contributions propel the evolution of musical history forward.

ACE-Step is a novel open-source foundation model for music generation that overcomes key limitations of existing approaches through a holistic architectural design. It integrates diffusion-based generation with Sana's Deep Compression AutoEncoder (DCAE) and a lightweight linear transformer, achieving state-of-the-art performance in generation speed, musical coherence, and controllability.
Key Features:
ACE-Step can be used for:
The model serves as a foundation for:
The model should not be used for:
see: https://github.com/ace-step/ACE-Step
| Device | 27 Steps | 60 Steps |
|---|---|---|
| NVIDIA A100 | 27.27x | 12.27x |
| RTX 4090 | 34.48x | 15.63x |
| RTX 3090 | 12.76x | 6.48x |
| M2 Max | 2.27x | 1.03x |
RTF (Real-Time Factor) shown - higher values indicate faster generation
Users should:
Developed by: ACE Studio and StepFun
Model type: Diffusion-based music generation with transformer conditioning
License: Apache 2.0
Resources:
@misc{gong2025acestep,
title={ACE-Step: A Step Towards Music Generation Foundation Model},
author={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
howpublished={\url{https://github.com/ace-step/ACE-Step}},
year={2025},
note={GitHub repository}
}
This project is co-led by ACE Studio and StepFun.