par AEmotionStudio
Open source · 161 downloads · 0 likes
Stable Audio Open est un modèle de génération audio qui transforme des descriptions textuelles en effets sonores et textures ambiantes stéréo, d'une durée maximale de 47 secondes à 44,1 kHz. Il excelle particulièrement dans la création de sons réalistes comme des bruits de pas, des impacts, des ambiances (pluie, vent) ou des paysages sonores complexes, tout en produisant des textures musicales atmosphériques comme des nappes ou des drones. Contrairement à d'autres modèles, il ne génère ni chansons complètes avec voix, ni instruments musicaux de haute fidélité, ni synthèse vocale, se concentrant sur des usages créatifs et immersifs. Accessible sous licence communautaire, il est idéal pour les artistes, développeurs ou créateurs de contenu cherchant à enrichir leurs projets avec des sons uniques et variés. Son intégration simplifiée via des outils comme Mæstræa le rend particulièrement pratique pour une utilisation immédiate.
Text-to-Audio SFX & Ambient Textures — Up to 47s Stereo @ 44.1kHz
Original Model by Stability AI · Stability AI Community License
This is an ungated mirror of the Stable Audio Open 1.0 model weights for use with Mæstræa AI Workstation. Only safetensors-format weights are included (legacy
.ckptfiles stripped). All credits go to the original authors.
| Path | Description | Size |
|---|---|---|
model.safetensors | Main model checkpoint | ~3 GB |
transformer/diffusion_pytorch_model.safetensors | DiT transformer | ~1.5 GB |
text_encoder/model.safetensors | T5 text encoder | ~1.2 GB |
vae/diffusion_pytorch_model.safetensors | VAE decoder | ~150 MB |
projection_model/diffusion_pytorch_model.safetensors | Projection model | ~50 MB |
tokenizer/ | T5 tokenizer files | < 10 MB |
model_config.json | Model architecture config | < 1 KB |
model_index.json | Diffusers pipeline index | < 1 KB |
scheduler/ | Scheduler config | < 1 KB |
Stable Audio Open generates stereo audio at 44.1kHz from text prompts. It excels at:
Up to 47 seconds of stereo audio per generation.
These models are automatically downloaded by the Mæstræa AI Workstation backend.
from diffusers import StableAudioPipeline
import torch
pipe = StableAudioPipeline.from_pretrained(
"AEmotionStudio/stable-audio-open-models",
torch_dtype=torch.float16,
).to("cuda")
audio = pipe(
prompt="Thunderstorm with heavy rain and distant rolling thunder",
negative_prompt="low quality, distorted",
audio_end_in_s=10.0,
num_inference_steps=100,
).audios[0]
from stable_audio_tools import get_pretrained_model
model, model_config = get_pretrained_model("AEmotionStudio/stable-audio-open-models")
Stability AI Community License — see LICENSE.md for full terms.
Key points: