第 19 章扩散模型

扩散模型是一类生成模型，常见代表是去噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM）。训练阶段逐步向真实样本加入高斯噪声，并训练网络预测噪声；生成阶段从纯噪声出发，按时间步逐步去噪得到样本。

可以把它分成两个过程：

text

正向过程：真实图像 -> 逐步加噪 -> 纯噪声
反向过程：纯噪声 -> 逐步去噪 -> 生成图像

19.1 正向加噪过程

设真实样本为 $x_{0}$ 。扩散模型在每个时间步加入少量高斯噪声：

q (x_{t} | x_{t - 1}) = N (\sqrt{1 - β_{t}} x_{t - 1}, β_{t} I)

其中 $q (x_{t} | x_{t - 1})$ 是正向过程的一步条件分布， $N (μ, Σ)$ 表示均值为 $μ$ 、协方差矩阵为 $Σ$ 的高斯分布， $I$ 是单位矩阵， $β_{t}$ 控制第 $t$ 步加入多少噪声。

随着 $t$ 增大， $x_{t}$ 中原始数据结构越来越少，最后接近标准高斯噪声。

19.2 一步得到任意时间步噪声

实际训练时，不需要真的一步步加噪到 $t$ 。可以直接从 $x_{0}$ 得到 $x_{t}$ ：

x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ

其中：

ϵ \sim N (0, I)

定义：

α_{t} = 1 - β_{t}, {\bar{α}}_{t} = \prod_{s = 1}^{t} α_{s}

其中 $α_{t}$ 是第 $t$ 步保留的信号比例， ${\bar{α}}_{t}$ 是前 $t$ 步保留信号比例的累积， $ϵ$ 是从标准正态分布采样的噪声。

这个公式说明： $x_{t}$ 是干净样本和噪声的加权组合。

19.3 训练目标

扩散模型常见训练目标是预测噪声。

训练时随机选择时间步 $t$ ，给 $x_{0}$ 加噪得到 $x_{t}$ ，然后让神经网络预测加入的噪声 $ϵ$ ：

ϵ_{θ} (x_{t}, t)

损失函数为：

L = {‖ ϵ - ϵ_{θ} (x_{t}, t) ‖}^{2}

也就是说，模型学的是：给定带噪图像和时间步，判断其中的噪声是什么。

预测噪声只是常见参数化方式之一。也可以让模型预测干净样本 $x_{0}$ ，或者预测与 $x_{0}$ 和 $ϵ$ 有关的其他变量。但 DDPM 中最常见、最容易理解的训练方式是预测加入的噪声。

从监督学习角度看，训练样本可以理解为三元组：

text

带噪样本 x_t，时间步 t -> 噪声 epsilon

网络不只是看图像，还必须看时间步。因为同一个像素值在早期和晚期噪声强度不同，去噪策略也不同。

19.4 反向去噪过程

生成时从随机噪声开始：

x_{T} \sim N (0, I)

其中 $T$ 是扩散过程的总时间步数。

然后从 $T$ 到 1 逐步去噪：

text

x_T -> x_{T-1} -> ... -> x_1 -> x_0

每一步都用神经网络预测噪声，再根据预测结果还原更干净的样本。

反向过程通常写成：

p_{θ} (x_{t - 1} | x_{t})

它表示：在当前噪声样本 $x_{t}$ 已知的情况下，生成更干净的上一步样本 $x_{t - 1}$ 。这个条件分布的参数由神经网络预测，因此扩散模型的生成过程可以看作由神经网络控制的马尔可夫链。

说它是马尔可夫链，是因为每一步只直接依赖当前状态 $x_{t}$ ，而不是依赖完整历史：

x_{T} \to x_{T - 1} \to \dots \to x_{1} \to x_{0}

反向过程和 GAN 的生成方式不同。GAN 通常从一个随机向量一步生成样本，并通过生成器和判别器对抗训练；扩散模型把生成拆成很多个去噪步骤，训练目标通常是预测噪声，不需要判别器参与对抗。

19.5 时间步嵌入

同一张图在不同时间步噪声强度不同。模型必须知道当前输入处于哪个时间步。

因此扩散模型会把时间步 $t$ 编码成向量，再送入网络。

常见做法包括正弦余弦位置编码或可学习时间嵌入。

19.6 U-Net

图像扩散模型常用 U-Net 作为噪声预测网络。

U-Net 有编码器和解码器结构，并通过跳跃连接保留空间细节：

text

下采样提取语义 -> 上采样恢复分辨率

跳跃连接能把浅层空间细节传给解码部分，有利于生成清晰图像。

19.7 条件扩散模型

无条件扩散模型只学习生成数据。条件扩散模型会额外输入条件 $c$ ：

p_{θ} (x | c)

条件可以是：

条件	任务
类别标签	生成指定类别
文本	文生图
低分辨率图像	超分辨率
边缘图、深度图	控制结构

文生图模型会先把文本编码成向量，再作为条件引导去噪过程。

19.8 扩散模型、GAN、VAE 对比

模型	优点	缺点
VAE	训练稳定，潜空间规整	样本可能偏模糊
GAN	样本清晰，生成速度快	训练不稳定，可能模式崩溃
扩散模型	训练稳定，生成质量高	采样步骤多，速度较慢

与 GAN 一步生成样本不同，扩散模型把生成过程拆成多个去噪步骤，因此训练较稳定，但采样速度较慢。

第 19 章 扩散模型 ​

19.1 正向加噪过程 ​

19.2 一步得到任意时间步噪声 ​

19.3 训练目标 ​

19.4 反向去噪过程 ​

19.5 时间步嵌入 ​

19.6 U-Net ​

19.7 条件扩散模型 ​

19.8 扩散模型、GAN、VAE 对比 ​

第 19 章扩散模型

19.1 正向加噪过程

19.2 一步得到任意时间步噪声

19.3 训练目标

19.4 反向去噪过程

19.5 时间步嵌入

19.6 U-Net

19.7 条件扩散模型

19.8 扩散模型、GAN、VAE 对比