Imagen_前所未有的文本生成图像技术

Imagen是一种文本到图像的扩散模型，具有前所未有的逼真度和深层次的语言理解。Imagen 基于大型变换器语言模型的强大能力来理解文本，并结合扩散模型的优势生成高保真图像。我们发现，通用的大型语言模型（例如 T5）在编码文本生成图像时表现出乎意料的有效性：通过增加语言模型的规模，比增加扩散模型的规模更能提升样本的保真度和图像与文本的匹配度。 Imagen

关键发现：

语言模型的影响
我们的关键发现是，训练有素的大型语言模型，特别是经过预训练的 T5 等，能显著提升图像合成的质量。与扩散模型规模的增长相比，扩大语言模型的规模对样本的保真度和图像与文本的对齐度的提升更为有效。
最新的FID得分
Imagen在COCO数据集上达到了新的FID得分 7.27，且从未在该数据集上进行过训练。人类评审员认为，Imagen 生成的样本在图像与文本的对齐度上已经达到了与COCO数据本身相当的水平。
新基准测试：DrawBench
为了更深入地评估文本到图像模型，我们推出了 DrawBench，这是一个全面且具有挑战性的基准测试。通过 DrawBench，我们将Imagen与包括 VQ-GAN+CLIP、潜在扩散模型、DALL-E 2 等其他方法进行了比较，结果显示，在样本质量和图像文本对齐度方面，评审员更倾向于选择 Imagen。

技术架构：

Imagen使用一个大型冻结的 T5-XXL 编码器将输入文本编码为嵌入，并通过条件扩散模型将文本嵌入映射到一个 64×64 图像。接着，Imagen 还利用文本条件的超分辨率扩散模型，将图像从 64×64 升级到 256×256，再从 256×256 升级到 1024×1024，进一步提高图像质量。