par TencentARC
Open source · 8k downloads · 437 likes
PhotoMaker est un modèle d'IA innovant qui permet de générer des portraits personnalisés en quelques secondes à partir d'une ou plusieurs photos de visage et d'une description textuelle. Il excelle aussi bien dans la création de rendus réalistes que dans la stylisation artistique, offrant une grande flexibilité d'utilisation. Le modèle s'intègre facilement à d'autres outils comme SDXL ou des modules LoRA, ce qui élargit ses possibilités d'application. Idéal pour les artistes, les créateurs de contenu ou les particuliers souhaitant transformer des images avec précision, PhotoMaker se distingue par sa rapidité et son accessibilité, sans nécessiter de phase d'entraînement préalable. Ses résultats variés, allant du réalisme à l'abstraction, en font un outil polyvalent pour l'expression créative.
Users can input one or a few face photos, along with a text prompt, to receive a customized photo or painting within seconds (no training required!). Additionally, this model can be adapted to any base model based on SDXL or used in conjunction with other LoRA modules.




More results can be found in our project page
It mainly contains two parts corresponding to two keys in loaded state dict:
id_encoder includes finetuned OpenCLIP-ViT-H-14 and a few fuse layers.
lora_weights applies to all attention layers in the UNet, and the rank is set to 64.
You can directly download the model in this repository. You also can download the model in python script:
from huggingface_hub import hf_hub_download
photomaker_ckpt = hf_hub_download(repo_id="TencentARC/PhotoMaker", filename="photomaker-v1.bin", repo_type="model")
Then, please follow the instructions in our GitHub repository.
While the capabilities of image generation models are impressive, they can also reinforce or exacerbate social biases.
BibTeX:
@inproceedings{li2023photomaker,
title={PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding},
author={Li, Zhen and Cao, Mingdeng and Wang, Xintao and Qi, Zhongang and Cheng, Ming-Ming and Shan, Ying},
booktitle={IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2024}
}