贝尔曼最优公式实战：用Python手把手教你实现强化学习中的最优策略求解

张

张建站

2026/5/13 12:33:08

10分钟阅读

贝尔曼最优公式实战用Python手把手教你实现强化学习中的最优策略求解1. 从理论到代码贝尔曼最优公式的核心思想强化学习中的贝尔曼最优公式Bellman Optimality Equation是求解最优策略的数学基础。与普通贝尔曼方程不同它通过引入max操作直接寻找能够获得最大长期回报的动作。想象你在一个迷宫中每次选择方向时不仅要考虑下一步的奖励还要考虑这个选择对未来所有可能路径的影响——这正是贝尔曼最优公式要解决的问题。公式的核心表达为V*(s) max_a [ R(s,a) γ * Σ P(s|s,a) * V*(s) ]其中V*(s)是状态s的最优价值R(s,a)是采取动作a的即时奖励γ是折扣因子(0≤γ≤1)P(s|s,a)是状态转移概率提示在实际编程实现时我们通常使用值迭代Value Iteration算法它通过不断更新价值估计来逼近最优解。2. 搭建网格世界环境让我们从一个简单的5x5网格世界开始实现。这个环境中智能体从(0,0)出发目标是到达(4,4)碰到边界获得-1奖励到达目标获得10奖励其他移动获得-0.1奖励import numpy as np class GridWorld: def __init__(self, size5): self.size size self.goal (size-1, size-1) self.actions [up, down, left, right] def step(self, state, action): x, y state if action up: x max(x-1, 0) elif action down: x min(x1, self.size-1) elif action left: y max(y-1, 0) elif action right: y min(y1, self.size-1) new_state (x, y) if new_state self.goal: reward 10 done True elif new_state state: # 碰到边界 reward -1 done False else: reward -0.1 done False return new_state, reward, done3. 值迭代算法实现值迭代的核心是通过不断更新状态价值来逼近最优解。算法流程如下初始化所有状态价值为0对每个状态计算所有可能动作的期望价值选择最大期望价值作为该状态的新价值重复步骤2-3直到价值变化小于阈值def value_iteration(env, gamma0.9, theta1e-4): V np.zeros((env.size, env.size)) policy np.empty((env.size, env.size), dtypeobject) while True: delta 0 for i in range(env.size): for j in range(env.size): if (i,j) env.goal: continue v_old V[i,j] max_value -np.inf best_action None for action in env.actions: (new_i, new_j), reward, _ env.step((i,j), action) value reward gamma * V[new_i, new_j] if value max_value: max_value value best_action action V[i,j] max_value policy[i,j] best_action delta max(delta, abs(v_old - V[i,j])) if delta theta: break return V, policy注意折扣因子γ控制着智能体对未来奖励的重视程度。γ接近1表示更重视长期回报接近0则更关注即时奖励。4. 结果分析与可视化让我们运行算法并可视化结果env GridWorld() V, policy value_iteration(env) # 价值函数可视化 print(状态价值函数) print(np.round(V, 2)) # 策略可视化 print(\n最优策略) for i in range(env.size): row [] for j in range(env.size): if (i,j) env.goal: row.append(G) else: row.append(policy[i,j][0].upper()) # 取动作首字母 print( .join(row))典型输出结果状态价值函数 [[ 4.46 4.79 5.09 5.36 5.59] [ 4.79 5.09 5.36 5.59 5.79] [ 5.09 5.36 5.59 5.79 5.9 ] [ 5.36 5.59 5.79 5.9 6. ] [ 5.59 5.79 5.9 6. 10. ]] 最优策略 R R R R D R R R R D R R R R D R R R D D R R D D G从结果可以看出状态价值从起点到目标逐渐增加最优策略在大部分区域选择向右(R)或向下(D)移动靠近目标时策略会直接导向目标位置5. 高级应用与优化技巧5.1 处理更大状态空间对于大规模问题可以考虑以下优化异步更新不等待所有状态更新完就进行下一轮迭代优先扫描优先更新变化较大的状态函数逼近用神经网络等近似价值函数def async_value_iteration(env, gamma0.9, theta1e-4): V np.zeros((env.size, env.size)) policy np.empty((env.size, env.size), dtypeobject) changed True while changed: changed False for i in range(env.size): for j in range(env.size): if (i,j) env.goal: continue v_old V[i,j] max_value -np.inf best_action None for action in env.actions: (new_i, new_j), reward, _ env.step((i,j), action) value reward gamma * V[new_i, new_j] if value max_value: max_value value best_action action if abs(v_old - max_value) theta: changed True V[i,j] max_value policy[i,j] best_action return V, policy5.2 添加障碍物和特殊区域现实问题中环境往往更复杂。我们可以修改环境定义class ComplexGridWorld(GridWorld): def __init__(self): super().__init__() self.obstacles [(1,1), (2,3), (3,1)] self.danger [(4,0), (0,4)] # 进入这些区域获得-5奖励 def step(self, state, action): x, y state if action up: x max(x-1, 0) elif action down: x min(x1, self.size-1) elif action left: y max(y-1, 0) elif action right: y min(y1, self.size-1) new_state (x, y) if new_state in self.obstacles: return state, -1, False # 碰到障碍物保持原位 elif new_state in self.danger: reward -5 elif new_state self.goal: reward 10 done True elif new_state state: # 碰到边界 reward -1 done False else: reward -0.1 done False return new_state, reward, done5.3 策略评估与改进我们可以将策略迭代分解为两个独立步骤策略评估固定策略计算其价值函数策略改进基于当前价值函数选择更优动作def policy_evaluation(env, policy, gamma0.9, theta1e-4): V np.zeros((env.size, env.size)) while True: delta 0 for i in range(env.size): for j in range(env.size): if (i,j) env.goal: continue v_old V[i,j] action policy[i,j] (new_i, new_j), reward, _ env.step((i,j), action) V[i,j] reward gamma * V[new_i, new_j] delta max(delta, abs(v_old - V[i,j])) if delta theta: break return V def policy_improvement(env, V, gamma0.9): policy np.empty((env.size, env.size), dtypeobject) for i in range(env.size): for j in range(env.size): if (i,j) env.goal: continue max_value -np.inf best_action None for action in env.actions: (new_i, new_j), reward, _ env.step((i,j), action) value reward gamma * V[new_i, new_j] if value max_value: max_value value best_action action policy[i,j] best_action return policy6. 实际应用中的挑战与解决方案在实际项目中应用贝尔曼最优公式时会遇到几个典型挑战计算复杂度状态空间随维度指数增长维度灾难解决方案使用函数逼近、分层强化学习不完全观测真实环境往往无法获得完整状态信息解决方案引入部分可观测马尔可夫决策过程(POMDP)连续动作空间max操作在连续空间中难以计算解决方案使用策略梯度方法或离散化奖励设计不合理的奖励函数会导致意外行为解决方案逆向强化学习从示范中学习奖励函数以下是一个处理连续状态的示例框架from sklearn.neighbors import KDTree class ContinuousValueIteration: def __init__(self, state_samples, k10): self.tree KDTree(state_samples) self.k k self.V np.zeros(len(state_samples)) def update(self, states, rewards, next_states, gamma): _, indices self.tree.query(next_states, kself.k) neighbor_values np.mean(self.V[indices], axis1) target_values rewards gamma * neighbor_values self.V np.maximum(self.V, target_values)在实现强化学习系统时我发现一个常见误区是过度调参。实际上很多情况下问题出在奖励函数设计或状态表示上而非算法参数。例如在开发一个自动化交易系统时最初设计的奖励函数只考虑单步收益导致智能体采取高风险策略。通过引入平滑因子和风险惩罚才得到更合理的策略。

别再依赖 “被动响应” 的 AI 工具，企业需要能落地执行的 AI 超级员工

在AI技术全面渗透企业营销场景的当下，绝大多数技术从业者、企业运营者都曾陷入过相同的困境：对着各类AI工具反复打磨提示词，将完整的营销目标拆解为无数细碎指令，即便生成文案、视频等素材，后续的发布、跟进、数据优化…...

2026/5/8 20:04:09 阅读更多 →

图像处理扫盲：Radon变换不只是做CT，还能帮你把拍歪的文档图片摆正

用Radon变换拯救歪斜文档：手机拍摄文本自动矫正实战每次用手机拍完文档照片，导入电脑后总发现文字歪斜得像喝醉了酒？传统修图软件的手动旋转不仅费时，还难以精确对齐。其实，医学CT扫描的核心算法——Radon变换&#x…...

2026/5/8 20:04:10 阅读更多 →

NCD_Interfaces：面向工业I²C模块的嵌入式驱动抽象层

1. 项目概述NCD_Interfaces 是一个面向嵌入式硬件开发的底层驱动抽象层库，专为 NCD（National Control Devices）系列工业级 IC 模块设计。尽管其 README 中仅标注 “Only for me!”，但从实际代码结构、头文件定义及配套示例可明确判…...

2026/5/8 13:23:49 阅读更多 →

CANN/ops-transformer FlashAttention V2

aclnnFlashAttentionScoreV2 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况产品是否支持Ascend 950PR/Ascend 950DTAtlas A…...

2026/5/13 8:58:04 阅读更多 →