强化学习数学原理 - 必备数学基础 (Mathematical Preliminaries)

发表于2026-02-09|强化学习数学原理

|总字数:662|阅读时长:2分钟

1. 为什么 RL 的数学门槛高？

强化学习被公认为 AI 领域最难学的分支之一，原因在于它融合了：

概率论（状态随机性）。
优化论（梯度下降）。
随机过程（轨迹演化）。
泛函分析（算子与不动点）。

为了让你在后续章节不被公式劝退，本篇博文基于教材附录，总结了最核心的数学工具。

2. 概率论：不只是扔骰子

2.1 全期望公式 (Law of Total Expectation) - 必考点

在推导贝尔曼方程时，你会反复看到这个技巧：
$$ \mathbb{E}[X] = \mathbb{E} [ \mathbb{E}[X | Y] ] $$
在 RL 中，它表现为：当前状态的价值 = 下一个可能状态价值的加权平均。

2.2 状态分布 (Stationary Distribution)

当 Agent 在环境中跑了很久以后，它处于各个格子的概率会稳定下来。

数学本质：转移矩阵 $P_\pi$ 的左特征向量。
意义：这决定了我们在优化目标函数时，应该给哪些格子更大的权重。

3. 随机过程：关于“收敛”的艺术

3.1 鞅 (Martingale)

如果你在后续章节看到算法收敛性证明，通常会提到“鞅”。

定义：$\mathbb{E}[X_{n+1} | X_1, \dots, X_n] = X_n$。
直观理解：这就是公平博弈。如果你在赌场玩公平的游戏，你明天的钱数期望等于今天的。
应用：RL 算法的残差更新过程常被构造为一个鞅（或超鞅），从而利用收敛定理证明算法最后能停在最优解。

4. 优化论：梯度下降的深层细节

4.1 凸性 (Convexity)

如果损失函数是凸的，SGD 一定能找到全局最优。
痛点：深度强化学习（Deep RL）的损失函数通常是非凸的，因此 DQN、PPO 等算法需要很多工程技巧（如随机初始化、多随机种子）来避免掉进局部最优。

4.2 Lipschitz 连续性

为什么学习率 $\alpha$ 不能太大？
如果梯度变化太猛，模型就会跑飞。Lipschitz 常数限制了梯度的变化速度，是确定“安全步长”的关键。

5. 总结：你应该掌握到什么程度？

你不需要成为数学家，但当你看到以下符号时，脑中应该有画面感：

$\sum_a \pi(a|s)$：是在做选择的平均。
$\sum_{s’} p(s’|s,a)$：是在做物理世界的随机平均。
$\nabla \ln \pi$：是在问“参数往哪挪，动作概率会变大”。

有了这些地基，我们就可以正式进入 RL 的世界了！

下一章：第1章 - 基本概念 >>

文章作者: WP

文章链接: https://wp-a.github.io/2026/02/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E6%95%B0%E5%AD%A6%E5%8E%9F%E7%90%86/00_Math_Foundation/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 WPIRONMAN！

Math Probability Gradient Descent Martingale

赞助

微信

相关推荐

强化学习数学原理 - 第1章：基本概念 (Basic Concepts)

1. 为什么需要强化学习？在进入数学公式之前，我们需要理解强化学习（Reinforcement Learning, RL）解决的是什么核心问题。与监督学习（Supervised Learning）不同，RL 没有“上帝视角”的标签（Label）。Agent（智能体）是在未知的环境中，通过**试错（Trial-and-Error）**来学习的。这就像一个婴儿学习走路，没有说明书，只有摔倒时的疼痛（负奖励）和站稳时的喜悦（正奖励）。本章我们将基于 Westlake University 赵世钰老师的课程，结合配套的 GridWorld 代码，从零构建 RL 的数学大厦——马尔可夫决策过程 (MDP)。 2. 核心图景：Agent 与 Environment 的交互 RL 的世界观可以浓缩为一张图（对应视频中的核心板书）： Time $t$: Agent 处于状态 $S_t$（State）。 Decision: Agent 观察到 $S_t$，根据策略 $\pi$ 选择动作 $A_t$（Action）。 Interaction: Agent 将 $A_t$ 施加给...

强化学习数学原理 - 第2章：贝尔曼方程 (Bellman Equation)

1. 为什么需要贝尔曼方程？在第1章中，我们建立了 MDP 模型，但留下了一个核心问题：如何评价一个策略（Policy）的好坏？直观上，如果一个策略能让 Agent 获得更多的 Return（累积回报），它就是好的。但 Return $G_t$ 是一个随机变量（取决于未来的随机状态转移和奖励），我们不能直接比较随机变量。因此，我们引入期望（Expectation），即状态价值（State Value）。贝尔曼方程（Bellman Equation）就是描述状态价值之间关系的数学工具，它是强化学习的基石。 2. 状态价值函数 (State Value Function) 2.1 定义给定一个策略 $\pi$，状态 $s$ 的价值 $v_\pi(s)$ 定义为从状态 $s$ 出发，遵循策略 $\pi$ 能获得的期望回报： $$ v_\pi(s) = \mathbb{E}[G_t \mid S_t = s] $$ 2.2 为什么叫 “Bootstrapping” (自举)？我们可以把 Return 展开： $$ \begin{aligned} G_t &=...

强化学习数学原理 - 第3章：最优状态值与贝尔曼最优方程 (Bellman Optimality)

1. 终极目标：寻找最优策略在第2章中，我们学会了“给定一个策略，评估它好不好（Policy Evaluation）”。但这只是第一步，RL 的终极目标是找到最好的那个策略（Optimal Policy, $\pi^*$）。什么叫“最好”？数学定义：如果策略 $\pi^$ 的状态价值 $v_{\pi^}(s)$ 在每一个状态 $s$ 上都不低于其他任何策略 $\pi$ 的价值 $v_\pi(s)$，那么 $\pi^$ 就是最优策略。 $$ v_{\pi^}(s) \ge v_\pi(s), \quad \forall s \in \mathcal{S}, \forall \pi $$ 直观理解：最优策略就像一个完美的导航仪，无论你现在身处何地（哪怕是被风吹到了错误的格子），它都能告诉你接下来该怎么走才能获得最大的未来回报。 2. 贝尔曼最优方程 (Bellman Optimality Equation, BOE) 2.1 从 Bellman Equation 到 BOE 回忆普通贝尔曼方程： $$ v_\pi(s) = \sum_{a} \pi(a|s)...

强化学习数学原理 - 第6章：随机近似 (Stochastic Approximation)

1. 为什么学 RL 要学“随机近似”？本章看似是数学插曲，实则是连接蒙特卡洛 (MC) 和时序差分 (TD) 的桥梁。所有现代 RL 算法（Q-learning, DQN, Policy Gradient）的更新公式都长这样： $$ w ← w + α ( ext{Target} - w) $$ 这个公式是怎么来的？为什么它能收敛？这背后的数学原理就是 Robbins-Monro 算法。 2. 均值估计：从批量到增量假设我们想求随机变量 $X$ 的期望 $w = ℕ[X]$。我们可以采样 $x_1, x_2, …, x_k$。 2.1 批量计算 (Batch) $$ w_k = rac{1}{k} ∑_{i=1}^k x_i $$ 缺点：每次都要把所有数加起来除以 $k$，或者保存所有数。 2.2 增量计算 (Incremental) 我们可以推导出递推公式： $$ w_{k+1} = w_k + rac{1}{k+1} (x_{k+1} - w_k) $$ 这就是最简单的随机近似！ $w_k$: 当前的估计值。 $x_{k+1}$:...

评论

强化学习数学原理 - 必备数学基础 (Mathematical Preliminaries)

数据加载中