par Tencent-Hunyuan
Open source · 202k downloads · 15 likes
HunyuanDiT v1.1 est un modèle de génération d'images par intelligence artificielle optimisé pour comprendre et interpréter le chinois avec précision. Il transforme des descriptions textuelles en images réalistes en seulement 25 étapes, offrant un équilibre entre rapidité et qualité. Ses capacités incluent une compréhension fine des éléments culturels chinois et une gestion efficace des textes longs, ce qui le rend particulièrement adapté aux besoins créatifs et professionnels en Asie. Ce qui le distingue, c'est sa performance supérieure dans la cohérence texte-image et la clarté des sujets, surpassant plusieurs modèles open source tout en restant accessible. Idéal pour les artistes, les entreprises ou les développeurs souhaitant générer des visuels à partir de prompts en chinois.
[Arxiv] [project page] [github]
This repo contains the distilled Hunyuan-DiT in 🤗 Diffusers format.
It supports 25-step text-to-image generation.
Please install PyTorch first, following the instruction in https://pytorch.org
Install the latest version of transformers with pip:
pip install --upgrade transformers
Then install the latest github version of 🤗 Diffusers with pip:
pip install git+https://github.com/huggingface/diffusers.git
import torch
from diffusers import HunyuanDiTPipeline
pipe = HunyuanDiTPipeline.from_pretrained("Tencent-Hunyuan/HunyuanDiT-v1.1-Diffusers-Distilled", torch_dtype=torch.float16)
pipe.to("cuda")
# You may also use English prompt as HunyuanDiT supports both English and Chinese
# prompt = "An astronaut riding a horse"
prompt = "一个宇航员在骑马"
image = pipe(prompt).images[0]

In order to comprehensively compare the generation capabilities of HunyuanDiT and other models, we constructed a 4-dimensional test set, including Text-Image Consistency, Excluding AI Artifacts, Subject Clarity, Aesthetic. More than 50 professional evaluators performs the evaluation.
| Model | Open Source | Text-Image Consistency (%) | Excluding AI Artifacts (%) | Subject Clarity (%) | Aesthetics (%) | Overall (%) |
|---|---|---|---|---|---|---|
| SDXL | ✔ | 64.3 | 60.6 | 91.1 | 76.3 | 42.7 |
| PixArt-α | ✔ | 68.3 | 60.9 | 93.2 | 77.5 | 45.5 |
| Playground 2.5 | ✔ | 71.9 | 70.8 | 94.9 | 83.3 | 54.3 |
| SD 3 | ✘ | 77.1 | 69.3 | 94.6 | 82.5 | 56.7 |
| MidJourney v6 | ✘ | 73.5 | 80.2 | 93.5 | 87.2 | 63.3 |
| DALL-E 3 | ✘ | 83.9 | 80.3 | 96.5 | 89.4 | 71.0 |
| Hunyuan-DiT | ✔ | 74.2 | 74.3 | 95.4 | 86.6 | 59.0 |
Welcome to Tencent Hunyuan Bot, where you can explore our innovative products in multi-round conversation!