2025_NIPS_Generating Images with Multimodal Language Models
文章总结与翻译一、主要内容本文提出了一种名为GILL(Generating Images with Large Language Models)的多模态语言模型方法,核心是将冻结的纯文本大型语言模型(LLM)与预训练的图像编码器、解码器模型通过嵌入空间映射进行融合,实现多种多模态功能。模型的核心能力包括:处理任意交错的图像和文本输入,输出连贯的文本、检索图像或生成新图像;通过高效的GILLMapper模块,将LLM的文本隐藏表示映射到文本到图像生成模型(如Stable Diffusion)的嵌入空间,充分利用LLM强大的文本表示能力提升视觉输出效果;引入学习型决策模块,在推理时自动判断是从指定数据集检索图像还是生成新图像;仅微调少量参数(约5000万),保持LLM和视觉模型主体冻结,训练高效(2台A6000 GPU训练2天)。实验结果表明,GILL在处理长文本、复杂语境(如对话、叙事)的文本到图像生成任务上优于Stable Diffusion等基线模型,同时在图像检索、多模态对话等任务上表现出色,是首个能同时输出检索图像、生成图像和文本的多模态语言模型。二、创新点跨模态嵌入空间映射:首次实现冻结纯文本LLM与冻结图像生成模型的高效映射,无需修改两者主体结构,仅通过微调少量参数即可实现多模态输入输出能力;GILLMapper模块设计:提出轻量级Tra