我们来看图下图展示了一个5x5像素的图像生成过程。我们首先对矩阵中的第一个像素位置进行预测以确定其值的分布然后通过采样过程选取一个具体的像素值。接着利用已确定的像素值作为参考我们预测并采样第二个像素位置的值。这一过程持续进行我们依次利用前一个或多个已确定像素值作为条件来预测下一个像素位置的值。通过这样的循环预测和采样我们逐步构建出整个图像直至最终确定第25个像素位置的值。这样我们就生成了一个完整的5x5像素图像。生成图像的多样性得益于采样过程中的随机性这种随机性确保了每次生成的图像都是不太一样的。我们在公式中通过利用前面的值来预测下一个值并不断重复这一过程这种方法称为自回归。大语言模型例如 ChatGPT生成文本也是利用的这个原理。然而利用自回归生成图像存在一些显著的缺点效率低下一方面生成w*h的图像需要模型推断w*h次另一方面模型对于样本的利用效率低关于这一点笔者在后面会详细进行解释。就近偏差自回归模型通常倾向于过度关注附近的像素值。这是因为在训练过程中模型通常通过预测下一个像素来训练而真实数据中相邻像素之间可能存在更强的相关性。这种倾向可能导致生成图像时模型过多的关注就近的像素而忽略之前的像素。缺乏有序性像素值是连续的有大小之分但自回归模型将其简单地视为分类问题中的类别忽略了像素值的有序性信息。