par diffusers
Open source · 208k downloads · 364 likes
Stable Diffusion XL 1.0 Inpainting 0.1 est un modèle de génération d'images par intelligence artificielle capable de créer des visuels photo-réalistes à partir de descriptions textuelles, avec une fonctionnalité avancée de retouche ciblée. Grâce à un système de masquage, il permet de modifier ou compléter des zones spécifiques d'une image tout en préservant le reste du contenu, offrant ainsi une grande précision dans les ajustements. Idéal pour les artistes, designers ou créateurs de contenu, il excelle dans la modification d'éléments comme des arrière-plans, des objets ou des détails sans altérer le reste de la composition. Ce modèle se distingue par sa capacité à intégrer harmonieusement les modifications suggérées par le texte, tout en maintenant une cohérence visuelle globale. Ses applications couvrent la création artistique, l'édition d'images professionnelles ou l'expérimentation visuelle, bien qu'il ne garantisse pas une parfaite exactitude ou un réalisme absolu.
license: openrail++ base_model: stabilityai/stable-diffusion-xl-base-1.0 tags:

SD-XL Inpainting 0.1 is a latent text-to-image diffusion model capable of generating photo-realistic images given any text input, with the extra capability of inpainting the pictures by using a mask.
The SD-XL Inpainting 0.1 was initialized with the stable-diffusion-xl-base-1.0 weights. The model is trained for 40k steps at resolution 1024x1024 and 5% dropping of the text-conditioning to improve classifier-free classifier-free guidance sampling. For inpainting, the UNet has 5 additional input channels (4 for the encoded masked-image and 1 for the mask itself) whose weights were zero-initialized after restoring the non-inpainting checkpoint. During training, we generate synthetic masks and, in 25% mask everything.
from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")
img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"
image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))
prompt = "a tiger sitting on a park bench"
generator = torch.Generator(device="cuda").manual_seed(0)
image = pipe(
prompt=prompt,
image=image,
mask_image=mask_image,
guidance_scale=8.0,
num_inference_steps=20, # steps between 15 and 30 work well for us
strength=0.99, # make sure to use `strength` below 1.0
generator=generator,
).images[0]
How it works:
image | mask_image |
|---|---|
![]() | ![]() |
prompt | Output |
|---|---|
| a tiger sitting on a park bench | ![]() |
The model is intended for research purposes only. Possible research areas and tasks include
Excluded uses are described below.
The model was not trained to be factual or true representations of people or events, and therefore using the model to generate such content is out-of-scope for the abilities of this model.
While the capabilities of image generation models are impressive, they can also reinforce or exacerbate social biases.