par longlian
Open source · 17k downloads · 2 likes
LMD+ est un modèle d'IA spécialisé dans la génération d'images à partir de texte, améliorant significativement la capacité des modèles existants à interpréter et suivre les prompts complexes. Il utilise un grand modèle de langage (LLM) en amont pour analyser les instructions et planifier la disposition des éléments dans l'image, ce qui renforce la précision spatiale, la compréhension des négations, l'attribution d'attributs et le comptage d'objets. Contrairement aux approches classiques, il traite ces défis de manière unifiée sans nécessiter d'entraînement spécifique pour chaque cas. LMD+ s'appuie sur Stable Diffusion v1.4 et intègre des adaptateurs supplémentaires pour un contrôle plus fin, tout en restant compatible avec les outils existants. Idéal pour les applications créatives nécessitant une fidélité élevée aux descriptions textuelles, il se distingue par sa flexibilité et son approche innovante pour des résultats plus cohérents et nuancés.
Paper | Project Page | 5-minute Blog Post | Demo | Code | Citation | Related work: LLM-grounded Video Diffusion Models
LMD and LMD+ greatly improves the prompt following ability of text-to-image generation models by introducing an LLM as a front-end prompt parser and layout planner. It improves spatial reasoning, the understanding of negation, attribute binding, generative numeracy, etc. in a unified manner without explicitly aiming for each. LMD is completely training-free (i.e., uses SD model off-the-shelf). LMD+ takes in additional adapters for better control. This is a reproduction of LMD+ model used in our work. Our full codebase is at here.
This LMD+ model is based on Stable Diffusion v1.4 and integrates the adapters trained with GLIGEN. The model can be directly used with our LLMGroundedDiffusionPipeline, which is a simplified pipeline of LMD+ without per-box generation.
See the original SD Model Card here.
@article{lian2023llmgrounded,
title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models},
author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
journal={arXiv preprint arXiv:2305.13655},
year={2023}
}