别再死记硬背公式了！用Python手搓一个MDP环境，彻底搞懂智能体如何做决策

张

张建站

2026/4/20 4:14:18

10分钟阅读

用Python构建MDP环境从零实现强化学习决策引擎为什么需要动手实现MDP环境在强化学习领域马尔可夫决策过程MDP是描述智能体与环境交互的数学框架。许多教程会直接抛出状态转移概率、奖励函数等概念但真正理解智能体如何做决策最好的方式莫过于亲手构建一个MDP环境。当我第一次学习强化学习时那些数学符号和公式让我望而生畏。直到有一天我决定用Python从头实现一个简单的网格世界环境一切突然变得清晰起来。通过代码我直观地看到了状态如何转移、奖励如何产生以及价值函数如何迭代更新。这种做中学的体验远比死记硬背公式有效得多。1. 设计你的第一个MDP环境1.1 网格世界强化学习的Hello World网格世界是理解MDP最直观的环境之一。想象一个4x4的方格世界智能体从左上角出发目标是到达右下角的终点。每次移动会获得-1的奖励到达终点获得10奖励碰到边界则保持在原地。import numpy as np class GridWorld: def __init__(self, size4): self.size size self.goal (size-1, size-1) self.state (0, 0) # 初始状态 def reset(self): self.state (0, 0) return self.state def step(self, action): 执行动作并返回(next_state, reward, done) if self.state self.goal: # 已到达终点 return self.state, 0, True # 动作映射上0, 右1, 下2, 左3 moves [(-1,0), (0,1), (1,0), (0,-1)] new_row max(0, min(self.size-1, self.state[0] moves[action][0])) new_col max(0, min(self.size-1, self.state[1] moves[action][1])) new_state (new_row, new_col) reward -1 # 默认移动惩罚 if new_state self.goal: reward 10 # 到达终点的奖励 self.state new_state done (new_state self.goal) return new_state, reward, done1.2 可视化环境动态为了让环境更直观我们可以添加可视化功能def render(self): grid np.zeros((self.size, self.size), dtypestr) grid[:] · # 空地 grid[self.goal] G # 目标 grid[self.state] A # 智能体位置 print(\n.join( .join(row) for row in grid))现在你可以与这个环境交互了env GridWorld() state env.reset() env.render() # 向右移动 next_state, reward, done env.step(1) print(f奖励: {reward}, 是否结束: {done}) env.render()2. 理解MDP的核心组件2.1 状态转移矩阵的代码表示在MDP中状态转移概率p(s|s,a)定义了环境动态。对于我们的网格世界可以这样表示def get_transition_prob(self, state, action): 返回所有可能的(next_state, prob)对 if state self.goal: return [(state, 1.0)] # 终点状态保持不动 moves [(-1,0), (0,1), (1,0), (0,-1)] intended_row state[0] moves[action][0] intended_col state[1] moves[action][1] # 检查是否碰到边界 if not (0 intended_row self.size and 0 intended_col self.size): return [(state, 1.0)] # 保持在原地 new_state (intended_row, intended_col) return [(new_state, 1.0)] # 确定性环境2.2 奖励函数的实现奖励函数R(s,a,s)可以这样编码def get_reward(self, state, action, next_state): if state self.goal: return 0 if next_state self.goal: return 10 return -12.3 策略的Python表示策略π(a|s)可以表示为一个字典存储每个状态下选择各个动作的概率# 随机策略示例 random_policy { (i, j): [0.25, 0.25, 0.25, 0.25] # 上下左右各25%概率 for i in range(4) for j in range(4) } random_policy[(3,3)] [0, 0, 0, 0] # 终点不需要动作 # 贪心策略示例 def create_greedy_policy(q_values): policy {} for state in q_values: best_action np.argmax(q_values[state]) policy[state] np.zeros(4) policy[state][best_action] 1.0 return policy3. 实现价值迭代算法3.1 贝尔曼方程的代码实现价值迭代的核心是反复应用贝尔曼最优方程def value_iteration(env, theta0.01, discount_factor0.9): # 初始化价值函数 V {s: 0 for s in [(i,j) for i in range(4) for j in range(4)]} while True: delta 0 for s in V: if s env.goal: # 终点价值为0 continue # 计算每个动作的期望价值 action_values [] for a in range(4): total 0 for (next_s, prob) in env.get_transition_prob(s, a): reward env.get_reward(s, a, next_s) total prob * (reward discount_factor * V[next_s]) action_values.append(total) # 更新价值函数 new_value max(action_values) delta max(delta, abs(new_value - V[s])) V[s] new_value # 检查收敛 if delta theta: break return V3.2 从价值函数提取最优策略得到最优价值函数后我们可以提取最优策略def extract_policy(env, V, discount_factor0.9): policy {} for s in V: if s env.goal: # 终点不需要策略 policy[s] [0, 0, 0, 0] continue # 计算每个动作的价值 action_values np.zeros(4) for a in range(4): for (next_s, prob) in env.get_transition_prob(s, a): reward env.get_reward(s, a, next_s) action_values[a] prob * (reward discount_factor * V[next_s]) # 选择最优动作 best_action np.argmax(action_values) policy[s] np.eye(4)[best_action] # one-hot编码 return policy4. 完整案例训练智能体走出网格现在让我们把所有这些组件组合起来训练一个智能体从起点走到终点# 创建环境 env GridWorld() # 运行价值迭代 optimal_V value_iteration(env) # 提取最优策略 optimal_policy extract_policy(env, optimal_V) # 可视化策略 def render_policy(policy): arrows [↑, →, ↓, ←] grid np.zeros((4,4), dtypestr) for s in policy: if s (3,3): grid[s] G else: grid[s] arrows[np.argmax(policy[s])] print(\n.join( .join(row) for row in grid)) render_policy(optimal_policy)运行这段代码你会看到一个箭头网格显示了从每个状态出发的最优动作。你会注意到智能体学会了避开边界直奔目标的最短路径。5. 扩展你的MDP环境5.1 添加随机性现实世界往往充满不确定性。我们可以修改状态转移函数使动作有10%的概率失败def get_stochastic_transition_prob(self, state, action): if state self.goal: return [(state, 1.0)] moves [(-1,0), (0,1), (1,0), (0,-1)] intended_row state[0] moves[action][0] intended_col state[1] moves[action][1] # 10%概率随机选择其他动作 if np.random.random() 0.1: action np.random.choice([a for a in range(4) if a ! action]) intended_row state[0] moves[action][0] intended_col state[1] moves[action][1] # 边界检查 if not (0 intended_row self.size and 0 intended_col self.size): return [(state, 1.0)] new_state (intended_row, intended_col) return [(new_state, 1.0)]5.2 添加障碍物我们可以扩展网格世界加入障碍物class ObstacleGridWorld(GridWorld): def __init__(self, size4): super().__init__(size) self.obstacles [(1,1), (2,2)] # 障碍物位置 def step(self, action): moves [(-1,0), (0,1), (1,0), (0,-1)] new_row self.state[0] moves[action][0] new_col self.state[1] moves[action][1] # 检查是否碰到障碍物或边界 if (new_row, new_col) in self.obstacles or \ not (0 new_row self.size and 0 new_col self.size): return self.state, -1, False new_state (new_row, new_col) reward -1 if new_state self.goal: reward 10 done True else: done False self.state new_state return new_state, reward, done5.3 实现Q-learning算法除了价值迭代我们还可以实现基于Q-learning的模型无关算法def q_learning(env, episodes1000, alpha0.1, gamma0.9, epsilon0.1): Q {} for s in [(i,j) for i in range(4) for j in range(4)]: Q[s] np.zeros(4) # 每个状态4个动作 for _ in range(episodes): s env.reset() done False while not done: # ε-贪心策略选择动作 if np.random.random() epsilon: a np.random.choice(4) else: a np.argmax(Q[s]) # 执行动作 next_s, r, done env.step(a) # Q-learning更新 best_next_action np.argmax(Q[next_s]) td_target r gamma * Q[next_s][best_next_action] td_error td_target - Q[s][a] Q[s][a] alpha * td_error s next_s return Q6. 调试与优化技巧在实现MDP环境时有几个常见陷阱需要注意边界条件处理确保智能体不能穿过墙壁或障碍物终点状态处理终点应该是吸收状态不再产生奖励折扣因子选择γ接近1会使智能体更远视接近0则更短视收敛判断价值迭代中Δ θ的判断要合理设置一个实用的调试技巧是打印价值函数和策略的中间结果def print_values(V): for i in range(4): print( .join(f{V[(i,j)]:6.2f} for j in range(4)))7. 从网格世界到复杂环境掌握了网格世界的实现原理后你可以将这些概念扩展到更复杂的环境连续状态空间使用函数近似(如神经网络)代替表格部分可观测环境实现POMDP框架多智能体系统引入博弈论概念三维环境使用三维网格或物理引擎记住强化学习的核心思想是通用的。无论环境多么复杂智能体仍然在与环境交互通过试错学习最优策略。

E9:泛微OA系统API接口分类解析与应用指南

1. 泛微OA系统API接口概述泛微E9作为国内领先的OA协同办公平台，提供了超过2000个标准化API接口，覆盖文档管理、流程审批、CRM、HR等核心业务场景。这些接口采用RESTful风格设计，通过HTTP/HTTPS协议进行通信，支持JSON和XML两种数据…...

2026/4/20 4:11:26 阅读更多 →

告别PLC！用C#和WinPcap在Win11上直连EtherCAT伺服电机（汇川SV660N实战）

用C#直连EtherCAT伺服：Win11环境下的软PLC开发实战在工业自动化领域，传统PLC控制方案往往意味着高昂的硬件成本和复杂的系统集成。但今天，我们将探索一条全新的路径——仅用一台Windows 11电脑、C#代码和WinPcap驱动，就能直接控制…...

2026/4/20 4:10:06 阅读更多 →

JetsonNano实战（五）：ARM架构下的PyTorch与Torchvision环境搭建全攻略

1. 为什么Jetson Nano需要特殊版本的PyTorch 第一次接触Jetson Nano的开发者经常会遇到一个困惑：为什么直接从PyTorch官网下载的安装包无法使用？这其实涉及到计算机体系结构的一个关键差异。我们日常使用的笔记本电脑和台式机，绝大多数采用的…...

2026/4/20 4:08:26 阅读更多 →

背靠背VSC直流母线电压控制与同步发电机并网发散问题：原理、分析与解决方案

背靠背VSC直流母线电压控制与同步发电机并网发散问题：原理、分析与解决方案摘要背靠背电压源换流器（Back-to-Back VSC）是现代柔性直流输电和新能源并网系统的核心设备。在实际工程调试中，经常出现一个令人困扰的现象：当采用“三相电源-VSC-直流母线-VSC-三相电源”的背…...

2026/4/20 3:02:06 阅读更多 →

5分钟搞定抖音素材批量下载：douyin-downloader让你的创作效率翻倍

5分钟搞定抖音素材批量下载：douyin-downloader让你的创作效率翻倍【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fal…...

2026/4/19 0:08:06 阅读更多 →