别再死记公式了！用PyTorch手搓一个GAN来生成MNIST数字（附完整代码与可视化训练过程）

张

张建站

2026/5/29 5:57:21

10分钟阅读

别再死记公式了！用PyTorch手搓一个GAN来生成MNIST数字（附完整代码与可视化训练过程）

从零构建GAN用PyTorch实现手写数字生成的实战指南当你第一次听说生成对抗网络GAN时可能会被那些复杂的数学公式和抽象的理论概念吓退。但今天我们要用完全不同的方式学习GAN——通过动手实现一个能生成MNIST手写数字的真实项目。忘记那些枯燥的公式推导我们将用代码说话让你亲眼见证神经网络如何从随机噪声中创造出逼真的数字图像。1. 项目准备与环境搭建在开始之前确保你的开发环境已经准备就绪。我们将使用Python 3.8和PyTorch 1.10版本。如果你还没有安装这些工具可以按照以下步骤进行配置# 创建并激活虚拟环境 python -m venv gan_env source gan_env/bin/activate # Linux/Mac # 或 gan_env\Scripts\activate # Windows # 安装PyTorch根据你的CUDA版本选择 pip install torch torchvision matplotlib numpy项目目录结构建议如下mnist_gan/ ├── models/ # 存放模型定义 │ ├── generator.py │ └── discriminator.py ├── utils/ # 辅助工具 │ └── visualize.py ├── config.py # 超参数配置 ├── train.py # 训练脚本 └── generate.py # 生成新样本提示使用虚拟环境可以避免包版本冲突是Python项目开发的最佳实践。2. GAN核心组件实现2.1 生成器架构设计生成器的任务是将随机噪声转换为逼真的MNIST手写数字图像。我们设计一个全连接网络架构逐步将100维的噪声向量扩展为28×28像素的图像import torch.nn as nn class Generator(nn.Module): def __init__(self, latent_dim100): super(Generator, self).__init__() self.main nn.Sequential( nn.Linear(latent_dim, 256), nn.LeakyReLU(0.2), nn.BatchNorm1d(256), nn.Linear(256, 512), nn.LeakyReLU(0.2), nn.BatchNorm1d(512), nn.Linear(512, 1024), nn.LeakyReLU(0.2), nn.BatchNorm1d(1024), nn.Linear(1024, 784), nn.Tanh() ) def forward(self, z): img self.main(z) return img.view(-1, 1, 28, 28)关键设计选择使用LeakyReLU激活函数避免梯度消失问题批归一化(BatchNorm)帮助稳定训练Tanh输出将像素值限制在[-1,1]范围内2.2 判别器架构设计判别器是一个二分类网络判断输入图像是真实的还是生成的class Discriminator(nn.Module): def __init__(self): super(Discriminator, self).__init__() self.main nn.Sequential( nn.Linear(784, 1024), nn.LeakyReLU(0.2), nn.Dropout(0.3), nn.Linear(1024, 512), nn.LeakyReLU(0.2), nn.Dropout(0.3), nn.Linear(512, 256), nn.LeakyReLU(0.2), nn.Dropout(0.3), nn.Linear(256, 1), nn.Sigmoid() ) def forward(self, img): img_flat img.view(-1, 784) validity self.main(img_flat) return validity判别器设计要点Dropout层防止过拟合Sigmoid输出提供0到1之间的概率值与生成器对称的层结构但更深的网络3. 训练过程实现3.1 数据准备与加载MNIST数据集可以通过torchvision方便地获取from torchvision import datasets, transforms transform transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,)) ]) dataset datasets.MNIST( root./data, trainTrue, downloadTrue, transformtransform ) dataloader torch.utils.data.DataLoader( dataset, batch_size64, shuffleTrue )3.2 对抗训练循环GAN的训练过程是生成器和判别器交替优化的过程def train_gan(generator, discriminator, dataloader, epochs, lr0.0002): # 初始化优化器和损失函数 optimizer_G torch.optim.Adam(generator.parameters(), lrlr) optimizer_D torch.optim.Adam(discriminator.parameters(), lrlr) criterion nn.BCELoss() for epoch in range(epochs): for i, (real_imgs, _) in enumerate(dataloader): # 训练判别器 optimizer_D.zero_grad() # 真实图像损失 real_validity discriminator(real_imgs) real_loss criterion(real_validity, torch.ones_like(real_validity)) # 生成图像损失 z torch.randn(real_imgs.size(0), latent_dim) fake_imgs generator(z) fake_validity discriminator(fake_imgs.detach()) fake_loss criterion(fake_validity, torch.zeros_like(fake_validity)) d_loss real_loss fake_loss d_loss.backward() optimizer_D.step() # 训练生成器 optimizer_G.zero_grad() validity discriminator(fake_imgs) g_loss criterion(validity, torch.ones_like(validity)) g_loss.backward() optimizer_G.step() # 每100个batch打印一次损失 if i % 100 0: print(f[Epoch {epoch}/{epochs}] [Batch {i}/{len(dataloader)}] f[D loss: {d_loss.item():.4f}] [G loss: {g_loss.item():.4f}]) # 可视化生成结果 if i % 500 0: save_image(fake_imgs.data[:25], fimages/{epoch}_{i}.png, nrow5, normalizeTrue)训练过程中的关键点使用Adam优化器学习率设为0.0002二元交叉熵损失(BCELoss)作为目标函数交替更新判别器和生成器定期保存生成的样本用于监控训练进度4. 训练可视化与调试技巧4.1 实时监控训练过程为了直观理解GAN的训练动态我们可以实现几种可视化方法损失曲线绘制记录并绘制生成器和判别器的损失变化样本生成质量定期保存生成器输出的图像序列潜在空间插值展示潜在向量连续变化时生成图像的过渡import matplotlib.pyplot as plt def plot_losses(g_losses, d_losses): plt.figure(figsize(10,5)) plt.title(Generator and Discriminator Loss During Training) plt.plot(g_losses, labelG) plt.plot(d_losses, labelD) plt.xlabel(iterations) plt.ylabel(Loss) plt.legend() plt.show()4.2 常见问题与解决方案在训练GAN时你可能会遇到以下典型问题问题现象可能原因解决方案生成器输出无意义噪声模式崩溃增加噪声维度、使用mini-batch判别判别器损失快速降为0判别器过强降低判别器学习率、减少判别器更新频率生成图像模糊损失函数不适合尝试Wasserstein损失、添加感知损失训练不稳定超参数敏感使用TTUR、梯度惩罚注意GAN训练对超参数非常敏感建议从小型实验开始逐步调整网络容量和训练参数。5. 进阶改进与扩展思路当基础GAN能够生成可识别的手写数字后可以考虑以下改进方向5.1 网络架构升级使用DCGAN的卷积结构替代全连接网络class DCGenerator(nn.Module): def __init__(self, latent_dim): super(DCGenerator, self).__init__() self.main nn.Sequential( # 输入是Z, 进入卷积 nn.ConvTranspose2d(latent_dim, 512, 4, 1, 0, biasFalse), nn.BatchNorm2d(512), nn.ReLU(True), # 状态大小: (512) x 4 x 4 nn.ConvTranspose2d(512, 256, 4, 2, 1, biasFalse), nn.BatchNorm2d(256), nn.ReLU(True), # 状态大小: (256) x 8 x 8 nn.ConvTranspose2d(256, 128, 4, 2, 1, biasFalse), nn.BatchNorm2d(128), nn.ReLU(True), # 状态大小: (128) x 16 x 16 nn.ConvTranspose2d(128, 1, 4, 2, 1, biasFalse), nn.Tanh() # 状态大小: (1) x 32 x 32 ) def forward(self, input): return self.main(input)5.2 损失函数改进实现Wasserstein GAN with Gradient Penalty (WGAN-GP)def compute_gradient_penalty(D, real_samples, fake_samples): alpha torch.rand(real_samples.size(0), 1, 1, 1) interpolates (alpha * real_samples (1-alpha) * fake_samples).requires_grad_(True) d_interpolates D(interpolates) gradients torch.autograd.grad( outputsd_interpolates, inputsinterpolates, grad_outputstorch.ones_like(d_interpolates), create_graphTrue, retain_graphTrue, only_inputsTrue, )[0] gradients gradients.view(gradients.size(0), -1) gradient_penalty ((gradients.norm(2, dim1) - 1) ** 2).mean() return gradient_penalty5.3 条件式生成通过添加条件信息可以控制生成数字的类别class ConditionalGenerator(nn.Module): def __init__(self, latent_dim, num_classes): super(ConditionalGenerator, self).__init__() self.label_emb nn.Embedding(num_classes, num_classes) self.main nn.Sequential( nn.Linear(latent_dim num_classes, 256), nn.LeakyReLU(0.2), # ... 其余层保持不变 ) def forward(self, z, labels): c self.label_emb(labels) x torch.cat([z, c], 1) return self.main(x)在实际项目中我发现调整生成器和判别器的学习率比例对训练稳定性至关重要。通常让判别器的学习率略低于生成器比如0.0001 vs 0.0002可以防止判别器过早占据优势。另一个实用技巧是在训练初期使用较高的噪声维度如128维随着训练进行逐渐降低这有助于模型探索更丰富的模式。