从零构建自动驾驶小车：树莓派+CNN+PID控制全流程实践

张

张建站

2026/5/29 5:57:20

10分钟阅读

1. 项目概述一年之约从零到一造一辆机器学习驱动的自动驾驶小车去年年初我给自己定下了一个近乎疯狂的目标用一年的业余时间从零开始打造一辆具备基础自动驾驶能力的实体小车。这不是一个纯软件仿真项目而是涉及硬件选型、机械组装、传感器集成、算法开发与部署的全栈式挑战。我的初衷很简单就是想亲手摸一摸自动驾驶技术从理论到落地的每一个环节搞清楚那些在论文和新闻里看起来“高大上”的技术在实际中到底会遇到哪些“接地气”的麻烦。一年下来这台被我戏称为“蜗牛号”的小车已经能在我的客厅里稳定地沿着预设的赛道其实就是用黑色电工胶带贴的巡航并识别出几个简单的路标进行交互。整个过程充满了挫败感也收获了无与伦比的成就感。如果你也对机器学习、嵌入式开发或者机器人学感兴趣想亲手实现一个看得见摸得着的AI项目那么我这一年踩过的坑、总结的经验或许能为你省下不少时间。这个项目的核心是构建一个完整的“感知-决策-控制”闭环。感知层我用一个普通的USB摄像头充当“眼睛”用机器学习模型主要是卷积神经网络CNN来理解它看到的图像识别车道线、停止线、交通锥桶等。决策层则根据感知结果决定小车是该直行、转弯还是停车。控制层最终将决策转化为对电机和舵机的具体指令让小车真正动起来。整个系统跑在一块树莓派上所有算法都部署在边缘端实现真正的“端上智能”。接下来我将详细拆解这三大核心环节的实现过程、工具选型背后的思考以及那些让我熬了好几个通宵的典型问题。2. 整体架构设计与核心思路拆解在项目启动前我花了大量时间进行架构设计。一个常见的误区是直接扎进代码里或者买来最贵的硬件。我的经验是先想清楚“最小可行产品”是什么。对于自动驾驶小车这个MVP就是能在一条简单的直道弯道组成的封闭赛道上实现稳定循迹。基于这个目标我确定了分层架构和迭代开发的核心思路。2.1 硬件平台选型在性能、成本与易用性间权衡硬件是项目的物理基础选型直接决定了后续开发的复杂度和天花板。主控计算单元树莓派4B 4GB版。这是整个项目最核心的决策。为什么不直接用笔记本电脑因为我们需要一个能嵌入小车、功耗低、接口丰富、社区支持强大的计算平台。树莓派完美符合这些要求。4B版本的算力足以运行轻量级的CNN模型如MobileNet, SqueezeNet其USB 3.0接口能保证摄像头图像传输的低延迟GPIO引脚可以方便地连接电机驱动板和传感器。对比NVIDIA Jetson系列树莓派的成本约300-400元对于个人项目友好得多且其Linux生态让软件部署异常便捷。电机与底盘直流减速电机差速转向底盘。我选择了一个双电机驱动的四轮底盘。两个后轮分别由独立的直流减速电机驱动前轮是万向轮。这种“差速转向”方式通过控制左右轮的速度差来实现转弯结构简单控制逻辑直观非常适合模型车。电机本身不带编码器这意味着我们无法直接获取车轮转速开环控制这为后续的控制精度埋下了一个小挑战。电机驱动板L298N双H桥模块。树莓派的GPIO引脚输出电流很小约16mA无法直接驱动电机。L298N模块是一个经典的解决方案它接收树莓派发出的PWM脉冲宽度调制信号和方向信号能提供足够的电流来驱动两个电机正反转。选择它是因为其皮实耐用、资料众多作为起点再合适不过。“眼睛”罗技C270i USB摄像头。选择标准USB摄像头而非树莓派专用摄像头模块如CSI接口的原因在于灵活性。USB即插即用在开发阶段可以方便地在笔记本电脑上调试图像处理算法然后再移植到树莓派上。C270i分辨率达到720P帧率30fps且支持自动对焦性价比很高。电源两套独立系统。这是非常关键的一点电机在启动和堵转时会产生巨大的电流尖峰和电压波动如果和树莓派共用电源极易导致树莓派重启或损坏。我的方案是一块大容量如10000mAh的移动电源输出5V/2A单独给树莓派供电另一组18650锂电池7.4V通过降压模块给L298N和电机供电。两者共地即可。2.2 软件栈与开发流程规划软件上我采用“仿真先行实车调优”的策略。操作系统与基础环境树莓派上安装Raspberry Pi OS原Raspbian这是一个基于Debian的Linux发行版。编程语言选择Python因为它拥有最丰富的机器学习和计算机视觉库生态。核心软件库OpenCV计算机视觉的“瑞士军刀”用于图像读取、预处理裁剪、缩放、颜色空间转换、边缘检测等。TensorFlow Lite / PyTorch Mobile用于在树莓派上部署和运行训练好的机器学习模型。我最终选择了TensorFlow Lite因为其针对边缘设备的优化更成熟转换工具链更完善。GPIO Zero / RPi.GPIOPython库用于控制树莓派的GPIO引脚向L298N发送PWM信号。Jupyter Notebook在开发机我的笔记本电脑上用于数据探索、模型训练和算法原型设计。开发流程分为四步闭环数据采集与标注手动遥控小车在赛道上行驶同时录制视频并同步记录遥控指令前进、左转、右转。然后从视频中抽取图像帧并进行标注。模型训练在开发机上进行使用采集的数据训练一个CNN模型学习从图像到驾驶指令或方向盘角度的映射。模型转换与部署将训练好的模型转换为TensorFlow Lite格式并移植到树莓派上。实车测试与调优在小车上运行完整的自动驾驶程序观察其表现针对出现的问题如冲出赛道、转弯抖动返回第一步或第二步进行迭代。这个流程中最耗时的往往不是编码而是数据采集、清洗和实车调试。3. 感知系统让小车“看懂”世界自动驾驶的第一步是感知环境。对于我这个室内赛道项目感知的核心任务有两个车道线检测和路标识别。3.1 车道线检测从传统图像处理到深度学习初期我尝试了经典的计算机视觉方法因为它的可解释性强对算力要求低。传统方法流程图像预处理从摄像头获取一帧RGB图像。import cv2 frame cv2.VideoCapture(0).read()感兴趣区域提取车道线只可能出现在图像的下半部分地平线以下。我直接设定一个梯形的掩码只保留这个区域的图像能大幅减少后续计算量。颜色空间转换与阈值化我的赛道是黑色胶带背景是浅色地板。将图像从RGB转换到HSV颜色空间更容易通过设定色相、饱和度和明度的阈值提取出黑色区域。hsv cv2.cvtColor(roi, cv2.COLOR_BGR2HSV) lower_black np.array([0, 0, 0]) upper_black np.array([180, 255, 50]) # 根据实际光照调整 mask cv2.inRange(hsv, lower_black, upper_black)边缘检测与霍夫变换对二值化图像使用Canny边缘检测然后利用霍夫直线变换检测出图像中的直线段这些线段很可能就是车道线。车道线拟合将检测到的左右两组线段点分别用一条直线去拟合得到左右车道线的方程。实操心得光照是传统方法的“天敌”。白天和晚上阳光和灯光的位置变化会极大影响阈值化的效果。我不得不花大量时间调整阈值参数甚至想过给小车装上遮光罩。这让我下定决心引入深度学习。深度学习方案我训练了一个轻量化的CNN模型输入是裁剪后的图像输出是图像中车道线的中心点横向偏移量以像素为单位。这个偏移量直接反映了小车相对于车道中心的位置。模型结构基于MobileNetV2的骨干网络后面接几个全连接层。训练数据来自我手动驾驶时录制的视频每一帧图像我都人工标定了车道中心点的位置。为什么选择回归偏移量而不是分类左转/直行/右转或分割画出车道线像素回归提供的是连续、精确的控制量能让小车行驶更平滑。分类输出是离散的控制起来会有顿挫感。语义分割虽然更精确但对算力和标注数据的要求高得多在树莓派上实时运行10fps比较吃力。这个模型部署到树莓派上后稳定性远超传统方法对光照变化的鲁棒性显著提升。3.2 路标识别轻量级图像分类我在赛道上放置了打印的“停止”和“限速”标志。识别它们本质上是一个图像分类任务。数据准备从行驶视频中截取包含路标的图像块分别放入“stop”、“speed_limit”、“background”无路标文件夹。每类大概准备了200-300张图片并进行了简单的数据增强旋转、平移、调整亮度。模型选择与训练直接使用在ImageNet上预训练好的MobileNetV2模型将其顶部的分类层替换为适合我们3个类别的新的全连接层然后进行微调。这种方法称为“迁移学习”能利用模型已学到的通用图像特征用我们少量数据快速得到一个高性能的分类器。部署与集成将训练好的分类模型也转换为TFLite格式。在自动驾驶主循环中每隔若干帧比如每秒一次对当前图像中的特定区域如图像上方进行一次路标识别如果识别到“停止”标志则触发停车决策。4. 决策与控制系统的实现感知系统告诉我们“世界是什么样”决策与控制则要决定“我们该怎么做”。4.1 决策逻辑有限状态机对于这个简单的场景一个“有限状态机”就足够了。小车主要有三种状态巡航状态默认状态根据车道线检测模型输出的横向偏移量计算舵机转向角保持车道居中行驶。停车状态当路标识别模型检测到“停止”标志时进入。小车平滑减速直至完全停止并等待3秒。恢复状态停车等待结束后重新进入巡航状态。状态之间的转换条件清晰明了代码实现简单可靠。这比一上来就尝试强化学习等复杂方法要务实得多。4.2 控制核心PID控制器如何根据横向偏移量计算出精准的转向指令这里用到了自动化领域经典的PID控制器。它通过比例、积分、微分三个环节来纠正误差。误差就是感知模型计算出的车道中心横向偏移量error。假设图像中心是0左边为负右边为正。控制量输出给舵机或差速电机速度差的指令。PID算法的简化实现class SimplePID: def __init__(self, Kp, Ki, Kd): self.Kp Kp # 比例系数 self.Ki Ki # 积分系数 self.Kd Kd # 微分系数 self.integral 0 self.previous_error 0 def compute(self, error, dt): # dt: 距离上次计算的时间间隔 self.integral error * dt derivative (error - self.previous_error) / dt if dt 0 else 0 output self.Kp * error self.Ki * self.integral self.Kd * derivative self.previous_error error # 对输出进行限幅防止指令过大 output max(min(output, MAX_OUTPUT), -MAX_OUTPUT) return output调参实战只调P比例这是基础。Kp越大小车对误差反应越灵敏。但只调P小车会在中心线附近来回振荡永远停不下来。加入D微分Kd能预测误差的变化趋势。当小车快速接近中心线时微分项会产生一个反向的“抑制力”防止它冲过头有效减少振荡。这是让小车行驶平稳的关键。谨慎加入I积分Ki用于消除静态误差。比如如果小车的轮子有轻微的不对称导致它总是偏向一侧积分项会累积这个误差并最终纠正它。但Ki调得太大容易导致系统不稳定产生超调或震荡。在我的项目中由于赛道短静态误差不明显我最终将Ki设为了一个非常小的值甚至为0。注意事项PID调参是个“玄学”手艺。没有绝对的最优值。我的方法是先在仿真里调个大概如果有动力学模型的话然后上实车。务必从小参数开始逐步增加。先调P让小车能基本循迹但有振荡然后加D直到振荡消失响应平滑最后再考虑是否需要加I。实车调试时一定要把小车架起来让轮子空转观察电机响应避免参数过大导致小车失控撞墙。4.3 电机控制PWM与差速转向树莓派通过GPIO控制L298N。对于每个电机需要两个GPIO引脚控制方向正转/反转一个支持PWM的引脚控制速度。差速转向计算假设我们希望小车以基础速度base_speed前进并根据PID输出steering范围-1到1负左正右进行转向。# 计算左右轮速度 left_speed base_speed - steering * TURNING_GAIN right_speed base_speed steering * TURNING_GAIN # 确保速度值在电机PWM的有效范围内如0-100 left_speed max(min(left_speed, MAX_SPEED), 0) right_speed max(min(right_speed, MAX_SPEED), 0) # 将速度值转换为PWM占空比发送给L298N set_motor_speed(left_motor_pin, left_speed) set_motor_speed(right_motor_pin, right_speed)这里的TURNING_GAIN是一个增益系数决定了转向的灵敏度需要根据小车的轮距和物理特性进行调整。5. 系统集成与部署优化当各个模块开发完成后如何将它们高效、稳定地集成在一起并在资源受限的树莓派上实时运行是最后的挑战。5.1 主程序架构与多线程自动驾驶程序需要同时处理多个任务读取摄像头、运行感知模型、执行控制算法、记录日志等。如果用一个单线程的循环顺序执行很容易因为某个环节如模型推理的延迟导致整个系统卡顿控制指令发送不及时。我采用了生产者-消费者模型与多线程摄像头线程生产者独立线程负责从USB摄像头抓取最新的图像帧放入一个共享的、长度固定的队列中。这个线程只做I/O操作速度很快。感知-决策-控制线程消费者主线程从队列中取出最新的一帧图像如果队列为空则跳过旧帧保证实时性依次进行车道线检测、路标识别、PID计算和电机控制。日志/监控线程可选另一个线程负责将关键数据如误差、控制量、帧率写入文件或通过网络发送到电脑端进行可视化监控。这种架构确保了控制循环能以尽可能稳定的频率例如20Hz运行不受偶尔较慢的模型推理影响。5.2 模型优化与加速在树莓派上运行神经网络优化是必须的。使用TensorFlow Lite将训练好的Keras模型转换为.tflite格式。TFLite运行时专为移动和嵌入式设备优化内存占用更小推理速度更快。量化采用TFLite的训练后动态范围量化。它将模型权重从32位浮点数float32转换为8位整数int8。这几乎能将模型大小减少75%推理速度提升2-3倍而精度损失对于我们的任务微乎其微。使用硬件加速可选树莓派4B的CPU已经不错如果你有树莓派AI套件或USB加速棒如Google Coral USB Accelerator可以进一步将模型部署到NPU上获得数倍的速度提升。我在项目后期引入了Coral加速棒将模型推理时间从120ms降到了30ms以内。5.3 电源与信号噪声处理实车调试中大部分诡异问题都来自电源和噪声。电机干扰导致树莓派重启这是最经典的问题。即使电源分开电机产生的电磁噪声也可能通过地线或空间辐射干扰树莓派。解决方案在电机的电源线两端并联一个大的电解电容如1000μF/16V和一个小的陶瓷电容0.1μF用于滤除低频和高频噪声。确保所有地线连接牢固、粗短。PWM信号抖动软件生成的PWM信号可能不够稳定。可以尝试使用树莓派硬件支持的PWM引脚GPIO12, GPIO13, GPIO18, GPIO19。摄像头帧丢失USB摄像头在传输大量数据时可能占用过高CPU。使用OpenCV的cv2.VideoCapture时设置合适的分辨率和帧率如320x240, 15fps并在抓取帧后立即释放锁。6. 典型问题排查与调试技巧实录这一年我几乎遇到了所有新手可能遇到的问题。下面这个表格总结了我的“血泪史”问题现象可能原因排查步骤与解决方案小车完全不动1. 电源未接通或电压不足。2. 树莓派与L298N连线错误。3. 程序未成功发送PWM信号。1. 用万用表测量电机供电电压和树莓派5V引脚电压。2. 对照引脚图逐根检查连接线。3. 编写一个最简单的测试程序让单个电机以固定速度转动验证硬件通路。小车只能单向转或原地转圈1. 某个电机接线反相。2. 左右轮电机性能差异大。3. PID参数中转向增益符号错误。1. 交换电机的两根线或程序中反转该电机的方向信号。2. 空载测试每个电机的PWM-速度曲线进行校准或软件补偿。3. 检查计算左右轮速度的公式确保steering变量的符号正确影响左右轮。车道线检测时好时坏1. 环境光照变化。2. 摄像头焦距或位置变动。3. 图像预处理阈值参数固定不适应环境。1. 固定测试环境的光源或采用自适应阈值算法。2. 将摄像头牢固固定并标记其角度和位置。3.改用深度学习模型这是最根本的解决方案。小车循迹时剧烈振荡1. PID控制器中P参数过大。2. D参数过小或为0。3. 控制循环频率不稳定延迟大。1.大幅降低P值先让小车反应“迟钝”一些。2. 逐步增加D值观察振荡是否被抑制。3. 打印控制循环的时间间隔优化代码确保循环频率稳定如使用time.sleep()控制频率。树莓派运行一段时间后卡死或重启1. 电源功率不足电机启动时拉低电压。2. CPU过热降频。3. SD卡读写错误特别是频繁写日志。1. 使用输出电流更大的电源如3A以上并严格进行电机与主控的电源隔离。2. 为树莓派加装散热片和小风扇。3. 减少不必要的日志写入或使用内存日志定期写入。深度学习模型在树莓派上推理速度极慢1. 模型过大、过复杂。2. 未使用TensorFlow Lite或未进行量化。3. 树莓派内存交换频繁。1. 选用MobileNet, SqueezeNet等轻量级网络。2.务必转换为TFLite格式并进行量化。3. 增加树莓派的虚拟内存swap空间或关闭一些后台进程。调试心法分而治之永远不要一次性测试整个系统。先确保硬件能动电机测试再确保能“看”摄像头测试、OpenCV显示然后测试“感知”模型推理输出最后再闭环测试“控制”。可视化一切将关键变量误差、控制输出、帧率实时打印出来或者通过WebSocket发送到电脑端用图表显示。眼睛看不到的数据调试起来如同盲人摸象。记录日志程序运行时将传感器数据、控制指令和时间戳记录到文件中。当出现异常时回放日志能帮你精准定位问题发生的瞬间。拥抱失败小车冲出赛道、原地打转、撞上家具……这些都是常态。每一次失败都清晰地告诉你系统哪里还有缺陷。保持耐心从最简单的场景比如一条直道开始成功后再增加复杂度。7. 项目总结与未来可能的扩展方向回顾这一年最大的收获不是这辆能循迹的小车本身而是对整个软硬件集成项目开发流程的深刻体会。从需求定义、架构设计、模块开发、集成调试到问题排查这是一个完整的微型工程实践。它让我明白理论上的模型精度和实际中的系统稳定性之间隔着电源噪声、传感器误差、执行器延迟、软件时序等无数道鸿沟。这个项目目前只是一个起点一个功能完整的“玩具”。但它为许多有趣的扩展打下了基础多传感器融合加入超声波传感器或激光雷达实现简单的障碍物检测和避障让小车不再局限于平面赛道。SLAM与建图尝试使用摄像头进行视觉SLAM让小车在探索环境的同时构建地图实现真正的自主导航。更复杂的决策引入更高级的行为树或基于规则的决策系统处理更复杂的交通场景比如避让、超车如果有多辆车的话。仿真与实车闭环训练使用AirSim或CARLA等仿真环境训练一个端到端的驾驶策略网络再将策略网络部署到实车上进行微调探索强化学习的应用。对我个人而言最实用的技巧莫过于严格的电源隔离和PID调试时从小参数开始。这两个点看似简单却是我花了最多调试时间才深刻领悟的。如果你也打算启动类似的项目我的建议是目标不要一开始就定得太高先让轮子听你的话转起来再让车子看懂一条线一步一个脚印享受从无到有构建一个智能系统的乐趣。这个过程本身就是对“自动驾驶”这项复杂技术最好的致敬。