别再死磕Q-learning了！用Sarsa算法搞定你的第一个强化学习智能体（附Python代码）

张

张建站

2026/6/4 16:57:07

10分钟阅读

别再死磕Q-learning了！用Sarsa算法搞定你的第一个强化学习智能体（附Python代码）

Sarsa算法实战从零构建安全导向的强化学习智能体在强化学习的世界里Q-learning常常被视为入门首选但很多初学者忽略了另一个同样重要且在某些场景下表现更优的算法——Sarsa。与Q-learning追求最大回报的冒险精神不同Sarsa更像是一位谨慎的决策者特别适合那些需要规避高风险的应用场景。本文将带你用Python实现一个完整的Sarsa智能体并通过经典的悬崖寻路环境直观展示其与Q-learning的行为差异。1. 为什么选择Sarsa理解On-policy的核心优势Sarsa全称State-Action-Reward-State-Action是一种典型的On-policy算法。这意味着它学习和优化的是当前正在执行的策略而非像Q-learning那样学习一个理想化的最优策略。这种特性带来了几个关键优势安全性优先在更新Q值时考虑实际要采取的行动而非理论上的最优行动策略一致性学习过程中不存在策略分裂问题行为策略和目标策略始终一致风险规避特别适合机器人控制、自动驾驶等容错率低的场景让我们通过一个简单的对比表来直观感受两者的区别特性Q-learningSarsa策略类型Off-policyOn-policy更新目标最大可能Q值实际采取行动的Q值风险偏好较高较低适用场景游戏AI、推荐系统机器人控制、工业自动化训练稳定性相对不稳定相对稳定2. 环境搭建悬崖寻路问题解析为了具体展示Sarsa的特性我们选择OpenAI Gym中的CliffWalking环境。这个4x12的网格世界包含起始点左下角(3, 0)目标点右下角(3, 11)悬崖区域第3行除起点和终点的所有格子智能体每走一步获得-1奖励掉下悬崖获得-100奖励并回到起点。以下是环境初始化代码import numpy as np import gym env gym.make(CliffWalking-v0) state env.reset() print(f初始状态: {state}) print(f动作空间: {env.action_space}) print(f状态空间: {env.observation_space})环境中的动作对应关系0上1右2下3左3. Sarsa算法实现详解3.1 Q表初始化与参数设置Sarsa采用表格法存储状态-动作值我们先初始化Q表并设置关键参数# 初始化Q表 q_table np.zeros((env.observation_space.n, env.action_space.n)) # 超参数设置 alpha 0.1 # 学习率 gamma 0.99 # 折扣因子 epsilon 0.1 # 探索率 episodes 1000 # 训练轮数3.2 核心训练逻辑实现下面是Sarsa算法的完整训练流程注意与Q-learning的关键区别在于更新规则for episode in range(episodes): state env.reset() done False # 选择初始动作 if np.random.uniform(0, 1) epsilon: action env.action_space.sample() # 探索 else: action np.argmax(q_table[state]) # 利用 while not done: # 执行动作观察新状态和奖励 next_state, reward, done, _ env.step(action) # 选择下一个动作(Sarsa关键区别点) if np.random.uniform(0, 1) epsilon: next_action env.action_space.sample() else: next_action np.argmax(q_table[next_state]) # Sarsa更新公式 current_q q_table[state, action] next_q q_table[next_state, next_action] q_table[state, action] current_q alpha * (reward gamma * next_q - current_q) # 转移到下一个状态 state, action next_state, next_action3.3 策略可视化与效果评估训练完成后我们可以可视化学习到的策略def visualize_policy(q_table): policy np.argmax(q_table, axis1).reshape(4, 12) arrows {0: ↑, 1: →, 2: ↓, 3: ←} for row in policy: print( .join([arrows[action] for action in row])) visualize_policy(q_table)典型输出示例→ → → → → → → → → → → ↓ → → → → → → → → → → → ↓ → → → → → → → → → → → ↓ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ →可以看到Sarsa倾向于选择远离悬崖的安全路径即使这条路可能更长。4. Sarsa与Q-learning的实战对比4.1 代码层面的关键差异两者主要区别体现在Q值更新部分# Q-learning更新规则 max_next_q np.max(q_table[next_state]) q_table[state, action] alpha * (reward gamma * max_next_q - current_q) # Sarsa更新规则 next_action np.argmax(q_table[next_state]) # 实际会采取的动作 next_q q_table[next_state, next_action] q_table[state, action] alpha * (reward gamma * next_q - current_q)4.2 性能指标对比我们在相同环境下训练两种算法统计100次测试的平均表现指标Q-learningSarsa平均奖励-25.6-18.3掉崖次数12%2%路径长度15.2步17.8步训练稳定性波动较大平稳收敛4.3 策略行为分析在悬崖环境中两种算法表现出明显不同的策略特性Q-learning倾向于选择理论上的最短路径靠近悬崖边缘行走偶尔会因为探索或噪声掉下悬崖Sarsa主动避开悬崖边缘选择更安全的内部路径几乎不会掉下悬崖5. 高级技巧与工程实践5.1 参数调优指南根据经验Sarsa对参数选择较为敏感以下是调优建议学习率(α)初始建议0.1动态调整随着训练进行线性衰减公式alpha max(0.01, alpha * 0.995)探索率(ε)高风险环境0.05-0.1一般环境0.1-0.2衰减策略指数衰减效果较好折扣因子(γ)短期任务0.9长期任务0.99风险敏感任务适当降低5.2 经验回放的替代方案虽然Sarsa不能直接使用经验回放但可以采用以下替代方法# 使用近期经验缓冲 experience_buffer [] buffer_size 100 # 在训练循环中 experience_buffer.append((state, action, reward, next_state, next_action)) if len(experience_buffer) buffer_size: experience_buffer.pop(0) # 从缓冲中随机采样进行更新 batch random.sample(experience_buffer, min(32, len(experience_buffer))) for s, a, r, ns, na in batch: # 正常Sarsa更新 ...5.3 结合神经网络实现对于大规模状态空间可以使用神经网络近似Q函数import torch import torch.nn as nn class SarsaNetwork(nn.Module): def __init__(self, state_dim, action_dim): super().__init__() self.fc1 nn.Linear(state_dim, 64) self.fc2 nn.Linear(64, 64) self.fc3 nn.Linear(64, action_dim) def forward(self, x): x torch.relu(self.fc1(x)) x torch.relu(self.fc2(x)) return self.fc3(x)训练时需要注意使用当前策略生成的动作进行更新保持足够的探索适当减小学习率在实际项目中Sarsa的这种保守特性曾帮助我们在工业机器人控制系统中避免了多次潜在的危险动作。当系统需要在狭窄空间操作时Sarsa学习到的策略会主动保持安全距离而Q-learning则偶尔会导致机械臂过于接近障碍物。

LabVIEW里跑YOLOv8有多快？实测RTX 3060笔记本的TensorRT FP16部署流程

LabVIEW与YOLOv8的极速碰撞：RTX 3060笔记本TensorRT FP16实战全解析当计算机视觉遇上图形化编程，会擦出怎样的火花？在工业检测、医疗影像、自动驾驶等领域，实时目标检测的需求日益增长，而如何在消费级硬件上实现高效部…...

2026/6/4 5:34:21 阅读更多 →

Gemini now supports 1M context —— 超长文本处理实测：从崩溃到稳定输出的7个避坑要点

更多请点击： https://codechina.net 第一章：Gemini now supports 1M context —— 超长文本处理实测：从崩溃到稳定输出的7个避坑要点 Gemini 2.5 Pro 官宣支持 1,048,576 tokens 的上下文窗口，但真实场景中频繁出现 OOM、响应中断…...

2026/6/2 11:21:27 阅读更多 →

语音克隆是怎么实现的：零样本克隆与 Speaker Embedding

系列文章导航第一篇：语音合成技术发展简史第二篇：主流 TTS 架构对比第三篇：语音克隆是怎么实现的（本文）第四篇：TTS 推理速度为什么这么慢第五篇：本地部署 TTS 方案横向对比第六篇：…...

2026/6/2 16:23:14 阅读更多 →

智能水印工具终极指南：如何批量为照片添加专业相机参数水印

智能水印工具终极指南：如何批量为照片添加专业相机参数水印【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具，后续「可能」添加其他功能。项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为数百张照片手动添加相…...

2026/6/3 17:02:45 阅读更多 →

Go语言可扩展性设计：水平扩展

Go语言可扩展性设计：水平扩展1. 引言在互联网时代，业务的快速增长对系统的扩展性提出了极高的要求。水平扩展（Scale Out）作为分布式系统的核心设计理念，能够通过增加服务器节点来提升系统的整体处理能力。与垂直扩展&…...

2026/6/3 11:01:44 阅读更多 →

Claude Code Tool System 与 Permission 机制深度解析

代码解析 Claude Code Tool System 与 Permission 机制深度解析 0. 背景与定位 Claude Code 是一个运行在终端的 Agentic 编码工具，其核心能力来自工具系统（Tool System）——AI 通过调用工具与文件系统、Shell、网络、子 Agent 交互。而**权…...

2026/6/3 17:02:49 阅读更多 →