【跟李沐学AI】24 狗的品种识别（ImageNet Dogs）

张

张建站

2026/5/12 2:04:40

10分钟阅读

前言本章内容与上一章节的图像分类任务CIFAR-10相近主要区别在于① 图像数据更复杂多样性更大图像增广处理不一致② 使用预训练的模型并采用冻结微调策略 ③ 预测的输出不再是类别而是一个包含所有类别预测概率的向量。下面着重介绍区别之处。ImageNetDogs 数据集介绍比赛网址https://www.kaggle.com/c/dog-breed-identificationImageNetDogs 是 ImageNet 数据集中针对犬类的子集用于训练精细的图像分类包含120个犬种而且每个类别的训练图像数量有限。且相较于CIFAR-10每张图像更高更宽尺寸不一。与CIFAR-10任务不同的是本任务对于测试集中的每张图片必须预测它对应于每个品种的概率:id,affenpinscher,afghan_hound,..,yorkshire_terrier 000621fb3cbb32d8935728e48679680e,0.0083,0.0,...,0.0083 等等。代码实现1 导包import os import torch import torchvision from torch import nn from d2l import torch as d2l2 获取和整理数据集(1) 下载数据集同样为了方便入门课程提供了小型数据集 kaggle_dog_tiny.zip 文件下载地址https://d2l-data.s3-accelerate.amazonaws.com/kaggle_dog_tiny.zip#save d2l.DATA_HUB[dog_tiny] (d2l.DATA_URL kaggle_dog_tiny.zip, 0cb91d09b814ecdc07b50f31f8dcad3e81d6a86d) # 如果使用Kaggle比赛的完整数据集请将下面的变量更改为False demo True if demo: data_dir d2l.download_extract(dog_tiny) else: data_dir os.path.join(., data, dog-breed-identification)2整理数据集读取训练数据标签、拆分验证集并整理训练集。def reorg_dog_data(data_dir, valid_ratio): labels d2l.read_csv_labels(os.path.join(data_dir, labels.csv)) d2l.reorg_train_valid(data_dir, labels, valid_ratio) d2l.reorg_test(data_dir) batch_size 32 if demo else 128 valid_ratio 0.1 reorg_dog_data(data_dir, valid_ratio)3 图像增广ImageNet中图像的尺寸更大也更复杂多样性更大。对于训练数据设置随机裁剪0.08的比例其实是因为图像尺寸更大拿到图像的一条腿/一只眼睛就可以判断其类别另外对亮度、饱和度以及对比度也加了噪声以做更强一些的正则。transform_train torchvision.transforms.Compose([ # 随机裁剪图像所得图像为原始面积的0.081之间高宽比在3/4和4/3之间。 # 然后缩放图像以创建224x224的新图像 torchvision.transforms.RandomResizedCrop(224, scale(0.08, 1.0), ratio(3.0/4.0, 4.0/3.0)), torchvision.transforms.RandomHorizontalFlip(), # 由于数据比较复杂多样性较大因此随机更改亮度对比度和饱和度 torchvision.transforms.ColorJitter(brightness0.4, contrast0.4, saturation0.4), torchvision.transforms.ToTensor(), # 标准化图像的每个通道 torchvision.transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])]) transform_test torchvision.transforms.Compose([ torchvision.transforms.Resize(256), # 从图像中心裁切224x224大小的图片 torchvision.transforms.CenterCrop(224), torchvision.transforms.ToTensor(), torchvision.transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])4 读取数据集与前一篇一致train_ds, train_valid_ds [torchvision.datasets.ImageFolder( os.path.join(data_dir, train_valid_test, folder), transformtransform_train) for folder in [train, train_valid]] valid_ds, test_ds [torchvision.datasets.ImageFolder( os.path.join(data_dir, train_valid_test, folder), transformtransform_test) for folder in [valid, test]]train_iter, train_valid_iter [torch.utils.data.DataLoader( dataset, batch_size, shuffleTrue, drop_lastTrue) for dataset in (train_ds, train_valid_ds)] valid_iter torch.utils.data.DataLoader(valid_ds, batch_size, shuffleFalse, drop_lastTrue) test_iter torch.utils.data.DataLoader(test_ds, batch_size, shuffleFalse, drop_lastFalse)6 微调预训练模型这里提供一种策略ImageNetDogs是取自ImageNet数据集上的子集可以认为官方提供的预训练模型已经能够在原始数据集上取得不错的表现所有设置pretrainedTrue另外为了针对狗的类别分类添加一个新的单层MLP进行模型微调这里采用”冻结微调“的策略模型前面所有卷积层的参数固定只更新最后的单层MLP的参数def get_net(devices): finetune_net nn.Sequential() finetune_net.features torchvision.models.resnet34(pretrainedTrue) # 定义一个新的输出网络共有120个输出类别 finetune_net.output_new nn.Sequential(nn.Linear(1000, 256), nn.ReLU(), nn.Linear(256, 120)) # 将模型参数分配给用于计算的CPU或GPU finetune_net finetune_net.to(devices[0]) # 冻结参数 for param in finetune_net.features.parameters(): param.requires_grad False return finetune_net7 训练函数使用交叉熵损失loss nn.CrossEntropyLoss(reductionnone) def evaluate_loss(data_iter, net, devices): l_sum, n 0.0, 0 for features, labels in data_iter: features, labels features.to(devices[0]), labels.to(devices[0]) outputs net(features) l loss(outputs, labels) l_sum l.sum() n labels.numel() return (l_sum / n).to(cpu)与上一篇内容基本一致def train(net, train_iter, valid_iter, num_epochs, lr, wd, devices, lr_period, lr_decay): # 只训练小型自定义输出网络 net nn.DataParallel(net, device_idsdevices).to(devices[0]) trainer torch.optim.SGD((param for param in net.parameters() if param.requires_grad), lrlr, #只更新最后自定义的单层MLP的参数 momentum0.9, weight_decaywd) scheduler torch.optim.lr_scheduler.StepLR(trainer, lr_period, lr_decay) num_batches, timer len(train_iter), d2l.Timer() legend [train loss] if valid_iter is not None: legend.append(valid loss) animator d2l.Animator(xlabelepoch, xlim[1, num_epochs], legendlegend) for epoch in range(num_epochs): metric d2l.Accumulator(2) for i, (features, labels) in enumerate(train_iter): timer.start() features, labels features.to(devices[0]), labels.to(devices[0]) trainer.zero_grad() output net(features) l loss(output, labels).sum() l.backward() trainer.step() metric.add(l, labels.shape[0]) timer.stop() if (i 1) % (num_batches // 5) 0 or i num_batches - 1: animator.add(epoch (i 1) / num_batches, (metric[0] / metric[1], None)) measures ftrain loss {metric[0] / metric[1]:.3f} if valid_iter is not None: valid_loss evaluate_loss(valid_iter, net, devices) animator.add(epoch 1, (None, valid_loss.detach().cpu())) scheduler.step() if valid_iter is not None: measures f, valid loss {valid_loss:.3f} print(measures f\n{metric[1] * num_epochs / timer.sum():.1f} f examples/sec on {str(devices)})8 训练和验证模型devices, num_epochs, lr, wd d2l.try_all_gpus(), 10, 1e-4, 1e-4 lr_period, lr_decay, net 2, 0.9, get_net(devices) train(net, train_iter, valid_iter, num_epochs, lr, wd, devices, lr_period, lr_decay)//测试9 对测试集分类在预测阶段把数据放到显卡上让模型跑一遍然后把输出的结果通过Softmax 函数处理算出每个类别可能性是多少。torch.nn.functional.softmax(..., dim1) —— 概率转换Softmax将 Logits 转换成 0 到 1 之间的概率值且所有类别的概率之和严格等于 1。输入 [2.0, 1.0, 0.1] - 输出 [0.659, 0.242, 0.099]。这就意味着模型认为有 65.9% 的把握属于第 1 类。dim1 的含义在深度学习中数据的形状通常是 (Batch_Size, Num_Classes)即 (批次大小, 类别数)。dim0 是批次维度dim1 是类别维度。设置 dim1 的意思是“请针对每一行每一个样本把它对应的所有类别分数转换成概率”。这是分类任务中最标准的做法。为什么要这么做呢— — 当样本数量太多甚至可能这个样本既是A类别也属于B类别此时大家不那么去关心Top 1的结果反而常常取 Top 5的结果作为参考。net get_net(devices) train(net, train_valid_iter, None, num_epochs, lr, wd, devices, lr_period, lr_decay) preds [] for data, label in test_iter: output torch.nn.functional.softmax(net(data.to(devices[0])), dim1) preds.extend(output.cpu().detach().numpy()) ids sorted(os.listdir( os.path.join(data_dir, train_valid_test, test, unknown))) with open(submission.csv, w) as f: f.write(id, ,.join(train_valid_ds.classes) \n) for i, output in zip(ids, preds): f.write(i.split(.)[0] , ,.join( [str(num) for num in output]) \n)

STM32H7实战：用CubeMX和W5500芯片，5分钟搞定一个TCP服务器（附心跳包配置）

STM32H7与W5500极速组网指南：从零构建工业级TCP服务器拿到STM32H7开发板和W5500模块时，许多工程师的第一需求就是快速验证硬件通信能力。本文将带你用CubeMX完成SPI接口配置、W5500驱动移植，最终实现一个带心跳检测的可靠TCP服务器。整个过程…...

2026/5/12 2:03:32 阅读更多 →

华为OD机试真题新系统 2026-05-10 JavaGoC语言实现【寻找孤立水站】

目录题目思路 Code 题目城市供水管道由若干个连接外部的源头水站，以及内部水站、水管组成。全市共有 n 个水站，编号为 0 至 n-1。供水网络由若干管道连接，管道分为两类： 1. 单向管道（Type 0）&#…...

2026/5/12 2:02:39 阅读更多 →

别光刷题！用HDLbits这道FSM+计数器的真题，手把手教你设计一个简易SDRAM控制器

从HDLbits到实战：用状态机计数器设计简易SDRAM控制器在数字电路设计中，状态机（FSM）和计数器的组合堪称黄金搭档。许多初学者在HDLbits上刷题时，往往只关注题目本身的解法，却忽略了这些抽象练习与实际工程应…...

2026/5/12 2:02:36 阅读更多 →

CANN/ops-transformer FlashAttention V2

aclnnFlashAttentionScoreV2 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况产品是否支持Ascend 950PR/Ascend 950DTAtlas A…...

2026/5/11 3:28:28 阅读更多 →