1. 为什么 RL 的数学门槛高?
强化学习被公认为 AI 领域最难学的分支之一,原因在于它融合了:
- 概率论(状态随机性)。
- 优化论(梯度下降)。
- 随机过程(轨迹演化)。
- 泛函分析(算子与不动点)。
为了让你在后续章节不被公式劝退,本篇博文基于教材附录,总结了最核心的数学工具。
2. 概率论:不只是扔骰子
2.1 全期望公式 (Law of Total Expectation) - 必考点
在推导贝尔曼方程时,你会反复看到这个技巧:
$$ \mathbb{E}[X] = \mathbb{E} [ \mathbb{E}[X | Y] ] $$
在 RL 中,它表现为:当前状态的价值 = 下一个可能状态价值的加权平均。
2.2 状态分布 (Stationary Distribution)
当 Agent 在环境中跑了很久以后,它处于各个格子的概率会稳定下来。
- 数学本质:转移矩阵 $P_\pi$ 的左特征向量。
- 意义:这决定了我们在优化目标函数时,应该给哪些格子更大的权重。
3. 随机过程:关于“收敛”的艺术
3.1 鞅 (Martingale)
如果你在后续章节看到算法收敛性证明,通常会提到“鞅”。
- 定义:$\mathbb{E}[X_{n+1} | X_1, \dots, X_n] = X_n$。
- 直观理解:这就是公平博弈。如果你在赌场玩公平的游戏,你明天的钱数期望等于今天的。
- 应用:RL 算法的残差更新过程常被构造为一个鞅(或超鞅),从而利用收敛定理证明算法最后能停在最优解。
4. 优化论:梯度下降的深层细节
4.1 凸性 (Convexity)
- 如果损失函数是凸的,SGD 一定能找到全局最优。
- 痛点:深度强化学习(Deep RL)的损失函数通常是非凸的,因此 DQN、PPO 等算法需要很多工程技巧(如随机初始化、多随机种子)来避免掉进局部最优。
4.2 Lipschitz 连续性
为什么学习率 $\alpha$ 不能太大?
如果梯度变化太猛,模型就会跑飞。Lipschitz 常数限制了梯度的变化速度,是确定“安全步长”的关键。
5. 总结:你应该掌握到什么程度?
你不需要成为数学家,但当你看到以下符号时,脑中应该有画面感:
- $\sum_a \pi(a|s)$:是在做选择的平均。
- $\sum_{s’} p(s’|s,a)$:是在做物理世界的随机平均。
- $\nabla \ln \pi$:是在问“参数往哪挪,动作概率会变大”。
有了这些地基,我们就可以正式进入 RL 的世界了!
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 WPIRONMAN!
评论

