从数据集准备到模型训练：一步步教你用P2PNet跑通SHHA人群计数数据集

张

张建站

2026/6/2 23:11:39

10分钟阅读

从数据集准备到模型训练一步步教你用P2PNet跑通SHHA人群计数数据集人群计数技术在智慧城市、公共安全等领域具有广泛应用价值。P2PNet作为近年来提出的创新性人群计数模型以其端到端的点预测能力和轻量化结构受到研究者关注。本文将带您从零开始完整实现P2PNet在SHHA数据集上的训练流程涵盖数据准备、环境配置、训练调参等关键环节特别针对实际项目中容易遇到的路径配置、版本兼容等问题提供解决方案。1. 环境准备与数据获取1.1 基础环境配置P2PNet基于PyTorch框架实现推荐使用Python 3.8和CUDA 11.3以上环境。以下是核心依赖的安装命令pip install torch2.1.2 torchvision0.16.2 pip install opencv-python pandas matplotlib tensorboardX常见环境问题排查CUDA版本不匹配通过nvidia-smi和nvcc --version检查驱动与运行时版本Pillow版本问题新版Pillow中ANTIALIAS已被移除需替换为Resampling.LANCZOSTorchvision API变更若遇到_new_empty_tensor导入错误可注释相关代码或降级torchvision版本1.2 SHHA数据集准备SHHAShanghaiTech Part A是人群计数领域的基准数据集包含482张高密度人群图像。建议按以下结构组织数据SHHA/ ├── images/ │ ├── IMG_1.jpg │ └── ... ├── txt/ │ ├── GT_IMG_1.txt │ └── ... └── splits/ ├── train.list └── test.list每个GT文件包含对应图像的标注点坐标格式示例104.5 203.2 78.1 156.7 ...提示原始数据集可能使用.mat格式标注需提前转换为txt格式。可使用以下Python代码片段转换import scipy.io mat scipy.io.loadmat(GT_IMG_1.mat) points mat[image_info][0][0][0][0][0] # SHHA特定结构 np.savetxt(GT_IMG_1.txt, points, fmt%.1f)2. 数据预处理实战2.1 自动生成数据列表文件P2PNet训练需要提供包含图像-标注对路径的列表文件。以下脚本可自动生成训练/测试集列表import os def generate_data_list(dataset_path, output_file): image_files [f for f in os.listdir(f{dataset_path}/images) if f.endswith(.jpg)] with open(output_file, w) as f: for img_file in image_files: img_path os.path.join(dataset_path, images, img_file) txt_file fGT_{os.path.splitext(img_file)[0]}.txt txt_path os.path.join(dataset_path, txt, txt_file) if os.path.exists(txt_path): f.write(f{img_path} {txt_path}\n) else: print(fWarning: Missing annotation for {img_file}) # 示例用法 generate_data_list(/data/SHHA/train, train.list) generate_data_list(/data/SHHA/test, test.list)关键参数说明dataset_path包含images和txt子目录的数据集根目录output_file生成的列表文件路径如train.list2.2 数据增强策略P2PNet原始论文采用以下增强组合随机水平翻转p0.5颜色抖动亮度0.2对比度0.2饱和度0.2随机裁剪512×512可通过修改datasets.py中的__getitem__方法调整增强策略。推荐保留原始增强方案以获得最佳性能。3. 模型训练全流程3.1 训练参数解析P2PNet的核心训练命令如下python train.py \ --data_root /path/to/SHHA \ --dataset_file SHHA \ --epochs 3500 \ --lr_drop 3500 \ --batch_size 8 \ --lr 0.0001 \ --lr_backbone 0.00001 \ --eval_freq 1 \ --output_dir ./logs \ --checkpoints_dir ./weights关键参数说明参数推荐值作用lr1e-4主学习率lr_backbone1e-5Backbone学习率lr_drop3500学习率衰减epocheval_freq1每N个epoch验证一次batch_size8根据GPU显存调整3.2 训练监控与调优通过TensorBoard可实时监控训练过程tensorboard --logdir./logs --port6006重点观察指标train_loss应平稳下降最终收敛到0.2-0.3val_mae验证集平均绝对误差SHHA上通常能达到60-70lr学习率变化曲线常见训练问题处理Loss震荡减小batch_size或降低学习率过拟合增加数据增强或提前停止训练显存不足减小batch_size或使用梯度累积4. 模型推理与部署4.1 测试集评估使用训练好的模型进行评估python run_test.py \ --weight_path ./weights/best.pth \ --output_dir ./results \ --dataset_path /path/to/SHHA/test输出包括预测密度图_density.jpg点预测结果_points.txt可视化标注_vis.jpg4.2 自定义数据推理对新的图像进行预测from models import build_model from PIL import Image model build_model(args) checkpoint torch.load(weights/best.pth, map_locationcpu) model.load_state_dict(checkpoint[model]) img Image.open(custom_image.jpg).convert(RGB) points model.predict(img) # 获取预测点坐标4.3 性能优化技巧TorchScript导出将模型转换为TorchScript提升推理速度traced_model torch.jit.trace(model, example_input) traced_model.save(p2pnet.pt)ONNX转换支持跨平台部署torch.onnx.export(model, dummy_input, p2pnet.onnx)TensorRT加速对CUDA核心进行优化可获得2-3倍速度提升实际部署中发现输入分辨率对推理速度影响显著。将图像缩放至800×600左右可在精度和速度间取得较好平衡。

Melnikov方法解析KS方程：从几何视角揭示时空混沌的生成机制

1. 项目概述：从几何视角看KS方程的混沌之源在非线性动力学和偏微分方程的研究中，我们常常面对一个核心挑战：如何理解一个看似简单的方程，却能产生极其复杂的时空混沌行为？Kuramoto–Sivashinsky (KS) 方程就是这样一个…...

2026/6/2 23:11:36 阅读更多 →

【信息科学与工程学】【数据科学】数据科学领域-第三篇数学基础07 群论03

编号类型领域数学模型群论的数学表达式/核心描述与求解步骤关联知识复杂度/特性应用场景 A1 群论基础算法计算群论置换群 (S_n) 核心问题：给定一个有限集合上的置换群 G ≤ S_n，计算其阶、轨道、稳定子及传递性。求解步骤 (利用 Schreier-Sims 算法)…...

2026/6/2 23:10:48 阅读更多 →

如何快速掌握鸣潮自动化工具：5大实用技巧与完整配置指南

如何快速掌握鸣潮自动化工具：5大实用技巧与完整配置指南【免费下载链接】ok-wuthering-waves 鸣潮后台自动战斗自动刷声骸一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 想要在《鸣潮》…...

2026/6/2 23:10:31 阅读更多 →

智能水印工具终极指南：如何批量为照片添加专业相机参数水印

智能水印工具终极指南：如何批量为照片添加专业相机参数水印【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具，后续「可能」添加其他功能。项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为数百张照片手动添加相…...

2026/6/2 10:07:16 阅读更多 →

Go语言可扩展性设计：水平扩展

Go语言可扩展性设计：水平扩展1. 引言在互联网时代，业务的快速增长对系统的扩展性提出了极高的要求。水平扩展（Scale Out）作为分布式系统的核心设计理念，能够通过增加服务器节点来提升系统的整体处理能力。与垂直扩展&…...

2026/6/2 10:07:52 阅读更多 →

Claude Code Tool System 与 Permission 机制深度解析

代码解析 Claude Code Tool System 与 Permission 机制深度解析 0. 背景与定位 Claude Code 是一个运行在终端的 Agentic 编码工具，其核心能力来自工具系统（Tool System）——AI 通过调用工具与文件系统、Shell、网络、子 Agent 交互。而**权…...

2026/6/2 10:07:56 阅读更多 →