DDPM与扩散模型

很早之前就新建了一个专栏从0开始弃坑扩散模型
,但发了一篇文章就没有继续这一系列，在这个AIGC的时代，于是我准备重启这个专栏。
整个专栏的学习顺序可以见这篇汇总文章

这是本专栏的第一章

引言

扩散模型( Diffusion Models，DM ) 最早是在2015年由斯坦福大学的Jascha Sohl-Dickstein等人提出的，全称是概率扩散模型(diffusion probabilistic model，DPM)。他们是怎么提出的呢？这里就要讲讲在之前的故事了。

生成模型的发展历程

很久以前，在一片广阔的大陆中，数据科学家们长期以来一直在探寻一种方法，希望能让机器不仅能学会理解复杂的数据，还能创造出全新的、前所未见的图像。他们希望通过这样的方式让机器拥有一点点“创造力”。这个愿望听起来很遥远，直到有一天，两个强大的法师——生成对抗网络（GAN）和变分自编码器（VAE）改变了这个世界。
VAE法师利用概率生成模型的力量，通过将图像数据映射到一个隐含的、更低维的空间（称为隐空间）来捕捉数据的本质特征。然后，VAE法师通过隐空间中的点（这并不是前面转换的点，而是在一定分布中随机抽样出来的新点）重构数据，生成新的样本。VAE中，把图像变成向量的网络叫做编码器，把向量转换回图像的网络叫做解码器。模型会在训练时候，不断学习某一类图像的标准正态分布，这样随机出来的分布也能与训练集生成相似的图像。在VAE中，生成图像的质量通常是通过它们与真实图像的相似度来评价的，这就导致了一个问题：虽然VAE生成的图像在像素级别上与原始图像可能非常相似，但它们往往缺乏锐利度和细节，看起来可能模糊不清，不够逼真。此外，VAE的另一个限制在于其假设潜在空间遵循一个简单的、通常是高斯分布的先验，这限制了它能够生成的样本类型，特别是在捕捉更复杂或多模态分布时可能会受到限制。
紧随其后，生成对抗网络（GAN）法师登场了。GAN法师带来了一场真正的革命，他不仅能够生成数据，还精心设计了一个判别器来评价数据的真实性。在他的法术下，生成器和判别器开始了一场激烈的对抗游戏。生成器像艺术家一样创作新的作品，而判别器则像艺术评论家一样对作品进行评判。通过不断的竞争，生成器学会了创造出越来越逼真的数据样本，而判别器则变得越来越擅长于分辨真伪。GAN法师成功地解决了如何评价生成图像的难题，使得生成的图像在质量上得到了显著的提升，它们变得几乎与真实图像无法区分。
在VAE和GAN两位法师展示他们的魔法之后，机器学习的领域已经大为震撼。但是，故事并没有结束。在他们的故事传开之后不久，一个新的法师扩散模型（Diffusion Model）从知识的迷雾中走了出来，带着一种新的魔法——他可以在数据的原始形态和一片纯净无噪的空白状态之间来回穿梭。
扩散模型法师的魔法与VAE法师有着密切的血缘关系，但又带有独特的力量。他的能力不在于对数据进行简单的编码和解码，而是在于逐步地、有策略地引入噪声，将数据模糊化，直至变成纯粹的随机噪声，就像是用一层层的绘画颜料将一个精致的画作覆盖，直到所有的细节都不再可见。
然而，扩散模型法师最引人注目的魔法是他的逆过程。他能够从那一片噪声的汪洋中，逐步地移除噪声，让数据重现其原有面貌。这一过程仿佛是在逆转时间，使混乱渐渐回归秩序。随着每一步噪声的去除，数据的结构开始逐渐显露，最终揭示出清晰的形象。
扩散模型法师的这种能力在处理高维数据时尤为强大，他能够生成具有非常高质量和复杂性的样本，这些样本不仅在视觉上逼真，而且在统计特性上也与真实数据几乎无法区分。这一点，即便是GAN法师也不得不承认。
这样，扩散模型法师不仅加入了VAE和GAN的行列，还将机器学习的艺术提升到了一个新的高度。他证明了即使在这些强大的法师们所创造的宏大叙事之后，还有新的故事等待被讲述，还有新的魔法等待被探索。而这个领域的探索者们仍然在往更深远的未知中迈进，寻找着将理论和实践结合起来的新的方法，以期达到更为完美的创造力。
（说了这么多，实际上这里就看着乐，我也放松一下，只要记得扩散模型只是VAE的变种就好了。）
然而DPM在图像生成质量和采样速度上存在许多不足，并未受到广泛关注。直至2020年，伯克利大学的Jonathan Ho等人提出了去噪扩散概率模型(DDPM)。DDPM改善了DPM的缺点，并在图像合成效果上超越了先前的生成模型，如生GAN、VAE、基于流的模型(Flow-based Models)和基于能量的模型(EBM)。
我们下面所讲的也是DDPM。

在这里插入图片描述