文生图技术解析二
文生图技术解析(二):生成式文生图
2023-2025年最新研究进展(25组)
- Stable Diffusion XL (SDXL):提升分辨率与细节表现,支持更复杂的文本提示。
- DALL·E 3:OpenAI发布,显著增强文本理解与图像一致性。
- Imagen 2:Google提出,优化大规模数据训练下的图像质量与多样性。
- Midjourney V6:艺术风格与细节表现力进一步提升,支持更丰富的风格迁移。
- ControlNet:可控生成,支持草图、姿态、边缘等多模态条件输入。
- Prompt-to-Prompt:局部编辑与风格迁移,提升交互式生成能力。
- DragGAN:通过拖拽方式实现图像局部结构编辑,交互性强。
- Paint-by-Example:以参考图像为例,实现风格和内容迁移。
- InstructPix2Pix:结合指令和图像编辑,支持自然语言驱动的图像修改。
- Re-Imagen:多模态融合,提升文本与图像语义一致性。
- LDM++:扩散模型结构优化,提升推理速度与生成质量。
- DiffEdit:基于掩码的高效图像编辑与重绘。
- PhotoMaker:高保真照片级人像生成,支持多身份融合。
- StyleDrop:谷歌提出的风格迁移新方法,支持极少样本风格学习。
- DreamBooth 2.0:个性化定制生成,支持单人多风格训练。
- InstantID:快速人脸识别与定制生成,适合社交与娱乐应用。
- MagicEdit:多轮对话式图像编辑,提升交互体验。
- Muse:Meta提出的高效Transformer文生图架构,推理速度快。
- PixArt-α:高分辨率艺术风格生成,适合插画与设计领域。
- QDiffusion:量化扩散模型,降低推理资源消耗。
- AnyDoor:任意门控条件生成,支持多种输入控制。
- UniDiffuser:统一多模态扩散架构,支持文本、图像、音频等多模态生成。
- VideoCrafter:文生视频技术,支持高质量短视频生成。
- Gen-2 (Runway):文生视频与图像融合,提升动态内容生成能力。
- HuggingFace Diffusers 1.0:集成多种主流扩散模型,支持自定义训练与推理。
每项研究均代表了文生图领域在生成质量、可控性、效率、多模态融合等方面的最新突破。
文生图技术解析二
https://summerchengh.github.io/tech-blog/2025/03/24/大模型-文生图-最新研究/