par alimama-creative
Open source · 26k downloads · 640 likes
FLUX.1 Turbo Alpha est un modèle de génération d'images optimisé, issu d'une distillation en 8 étapes du modèle FLUX.1-dev. Il excelle dans la création d'images à partir de texte (T2I) et peut être intégré à des outils comme ControlNet pour des fonctionnalités avancées comme l'inpainting, tout en réduisant significativement le temps de génération. Ses performances sont particulièrement adaptées aux images haute résolution (1024x1024) et aux prompts exigeants, grâce à un entraînement sur un large jeu de données filtré pour une qualité esthétique élevée. Ce modèle se distingue par son approche adversariale, utilisant un discriminateur multi-têtes pour affiner les résultats, et offre un bon compromis entre rapidité et fidélité par rapport à la version originale. Idéal pour les applications nécessitant des inférences rapides sans sacrifier la qualité visuelle.
This repository provides a 8-step distilled lora for FLUX.1-dev model released by AlimamaCreative Team.
This checkpoint is a 8-step distilled Lora, trained based on FLUX.1-dev model. We use a multi-head discriminator to improve the distill quality. Our model can be used for T2I, inpainting controlnet and other FLUX related models. The recommended guidance_scale=3.5 and lora_scale=1. Our Lower steps version will release later.


This model can be used ditrectly with diffusers
import torch
from diffusers.pipelines import FluxPipeline
model_id = "black-forest-labs/FLUX.1-dev"
adapter_id = "alimama-creative/FLUX.1-Turbo-Alpha"
pipe = FluxPipeline.from_pretrained(
model_id,
torch_dtype=torch.bfloat16
)
pipe.to("cuda")
pipe.load_lora_weights(adapter_id)
pipe.fuse_lora()
prompt = "A DSLR photo of a shiny VW van that has a cityscape painted on it. A smiling sloth stands on grass in front of the van and is wearing a leather jacket, a cowboy hat, a kilt and a bowtie. The sloth is holding a quarterstaff and a big book."
image = pipe(
prompt=prompt,
guidance_scale=3.5,
height=1024,
width=1024,
num_inference_steps=8,
max_sequence_length=512).images[0]
The model is trained on 1M open source and internal sources images, with the aesthetic 6.3+ and resolution greater than 800. We use adversarial training to improve the quality. Our method fix the original FLUX.1-dev transformer as the discriminator backbone, and add multi heads to every transformer layer. We fix the guidance scale as 3.5 during training, and use the time shift as 3.
Mixed precision: bf16
Learning rate: 2e-5
Batch size: 64
Image size: 1024x1024