强化学习数学原理 - 序章：一张图看懂强化学习 (Course Introduction)

发表于2026-02-09|强化学习数学原理

|总字数:769|阅读时长:2分钟

1. 欢迎来到强化学习的数学世界

强化学习（Reinforcement Learning, RL）近年来在围棋（AlphaGo）、游戏（Dota 2, StarCraft II）以及大模型训练（RLHF）中取得了举世瞩目的成就。然而，很多初学者往往陷入“会调包，不懂原理”的困境。

本系列笔记基于 西湖大学赵世钰老师 的经典教材《Mathematical Foundations of Reinforcement Learning》及其 B 站配套课程整理而成。我们的目标是：不仅知道 RL 怎么用，更要从数学底层看透它为什么能跑通。

2. 一张图讲完强化学习原理

在课程的开头，赵老师用一张极其经典的图概括了 RL 的全貌。理解了这张图，你就理解了 RL 的核心动力学。

核心循环 (The Loop)

Agent (智能体)：决策的主体（比如机器人、AI 程序）。
Environment (环境)：Agent 交互的对象（比如物理世界、棋盘）。
State ($S_t$)：环境给 Agent 的反馈信息（你在哪？情况如何？）。
Action ($A_t$)：Agent 根据 $S_t$ 做的决策（往哪走？做什么？）。
Reward ($R_{t+1}$)：环境给出的即时奖惩（做对了吗？）。

三个关键函数

在数学建模中，我们其实一直在围着这三个函数打转：

Policy $\pi(a|s)$：你的决策规则。
Transition $p(s’|s,a)$：环境的物理规律。
Value $v(s)$：评估一个处境的“长远前途”。

3. 本系列笔记的学习路径 (Roadmap)

我们将按照“基础 -> 算法 -> 进阶”的顺序，分 10 个章节进行深度拆解：

第一阶段：数学地基 (Chapters 1-4)

第1章：基本概念 —— 认识 MDP，理解 RL 的舞台。
第2章：贝尔曼方程 —— 评估策略好坏的数学标尺。
第3章：贝尔曼最优方程 —— 定义什么是“完美策略”。
第4章：值迭代与策略迭代 —— 拥有“上帝视角”时的最优解法。

第二阶段：实战演操 (Chapters 5-7)

第5章：蒙特卡洛方法 —— 丢掉“上帝视角”，从试错中学习。
第6章：随机近似 —— 现代 RL 更新公式背后的硬核数学（SGD 的本质）。
第7章：时序差分 (TD) —— 强化学习的灵魂，Sarsa 与 Q-learning。

第三阶段：深度进化 (Chapters 8-10)

第8章：值函数近似 —— 引入神经网络，征服无限状态 (DQN)。
第9章：策略梯度 —— 直接优化决策动作，处理连续空间 (REINFORCE)。
第10章：Actor-Critic —— 演员与评论家的终极配合 (A2C)。

4. 为什么这门课与众不同？

严谨性：不同于 Sutton 的教材（更偏直觉），赵老师的课非常强调数学证明（如压缩映射定理、RM 条件）。
工程化：每章笔记我们都会配上 Python/PyTorch 代码，确保公式能落地。
系统性：从简单的 GridWorld（网格世界）出发，一步步推导到现代大模型都在用的 RL 技术。

现在，请系好安全带，让我们从 第1章：基本概念 开始这段数学旅程。

下一章：第1章 - 基本概念 >>

文章作者: WP

文章链接: https://wp-a.github.io/2026/02/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E6%95%B0%E5%AD%A6%E5%8E%9F%E7%90%86/00_Course_Introduction/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 WPIRONMAN！

Reinforcement Learning Roadmap Introduction

赞助

微信

相关推荐

强化学习数学原理 - 第1章：基本概念 (Basic Concepts)

1. 为什么需要强化学习？在进入数学公式之前，我们需要理解强化学习（Reinforcement Learning, RL）解决的是什么核心问题。与监督学习（Supervised Learning）不同，RL 没有“上帝视角”的标签（Label）。Agent（智能体）是在未知的环境中，通过**试错（Trial-and-Error）**来学习的。这就像一个婴儿学习走路，没有说明书，只有摔倒时的疼痛（负奖励）和站稳时的喜悦（正奖励）。本章我们将基于 Westlake University 赵世钰老师的课程，结合配套的 GridWorld 代码，从零构建 RL 的数学大厦——马尔可夫决策过程 (MDP)。 2. 核心图景：Agent 与 Environment 的交互 RL 的世界观可以浓缩为一张图（对应视频中的核心板书）： Time $t$: Agent 处于状态 $S_t$（State）。 Decision: Agent 观察到 $S_t$，根据策略 $\pi$ 选择动作 $A_t$（Action）。 Interaction: Agent 将 $A_t$ 施加给...

强化学习数学原理 - 第2章：贝尔曼方程 (Bellman Equation)

1. 为什么需要贝尔曼方程？在第1章中，我们建立了 MDP 模型，但留下了一个核心问题：如何评价一个策略（Policy）的好坏？直观上，如果一个策略能让 Agent 获得更多的 Return（累积回报），它就是好的。但 Return $G_t$ 是一个随机变量（取决于未来的随机状态转移和奖励），我们不能直接比较随机变量。因此，我们引入期望（Expectation），即状态价值（State Value）。贝尔曼方程（Bellman Equation）就是描述状态价值之间关系的数学工具，它是强化学习的基石。 2. 状态价值函数 (State Value Function) 2.1 定义给定一个策略 $\pi$，状态 $s$ 的价值 $v_\pi(s)$ 定义为从状态 $s$ 出发，遵循策略 $\pi$ 能获得的期望回报： $$ v_\pi(s) = \mathbb{E}[G_t \mid S_t = s] $$ 2.2 为什么叫 “Bootstrapping” (自举)？我们可以把 Return 展开： $$ \begin{aligned} G_t &=...

强化学习数学原理 - 第3章：最优状态值与贝尔曼最优方程 (Bellman Optimality)

1. 终极目标：寻找最优策略在第2章中，我们学会了“给定一个策略，评估它好不好（Policy Evaluation）”。但这只是第一步，RL 的终极目标是找到最好的那个策略（Optimal Policy, $\pi^*$）。什么叫“最好”？数学定义：如果策略 $\pi^$ 的状态价值 $v_{\pi^}(s)$ 在每一个状态 $s$ 上都不低于其他任何策略 $\pi$ 的价值 $v_\pi(s)$，那么 $\pi^$ 就是最优策略。 $$ v_{\pi^}(s) \ge v_\pi(s), \quad \forall s \in \mathcal{S}, \forall \pi $$ 直观理解：最优策略就像一个完美的导航仪，无论你现在身处何地（哪怕是被风吹到了错误的格子），它都能告诉你接下来该怎么走才能获得最大的未来回报。 2. 贝尔曼最优方程 (Bellman Optimality Equation, BOE) 2.1 从 Bellman Equation 到 BOE 回忆普通贝尔曼方程： $$ v_\pi(s) = \sum_{a} \pi(a|s)...

强化学习数学原理 - 第4章：值迭代与策略迭代 (Value & Policy Iteration)

1. 动态规划的登场在第3章中，我们推出了 Bellman Optimality Equation (BOE)： $$ v^(s) = \max_{a} \sum_{s’} p(s’|s,a) [ r + \gamma v^(s’) ] $$ 因为 $\max$ 的非线性，我们无法直接解方程。本章我们将介绍求解 BOE 的两把“倚天屠龙剑”： Value Iteration (VI, 值迭代)：粗暴直接，对着 BOE 猛算。 Policy Iteration (PI, 策略迭代)：优雅从容，交替进行评估和改进。这两类算法统称为动态规划 (Dynamic Programming, DP) 方法。它们要求我们完全已知环境模型（$P$ 和 $R$）。 2. 值迭代 (Value Iteration) 2.1 算法逻辑 VI 的思想非常简单：既然 $v^*$ 是 BOE 的不动点，那我就把 BOE 当作更新规则，一直迭代直到收敛。 $$ v_{k+1}(s) = \max_{a} \underbrace{\sum_{s’} p(s’|s,a) [ r(s,a,s’) +...

强化学习数学原理 - 第5章：蒙特卡洛方法 (Monte Carlo Methods)

1. 跨越：从“有模型”到“无模型” 在之前的章节中，我们假设自己是“上帝”，完全知道环境的秘密：状态转移概率 $P$ 和奖励函数 $R$。但在现实中（如炒股、下棋），这些参数通常是不可知的。蒙特卡洛 (Monte Carlo, MC) 方法的出现，标志着我们进入了 Model-free (无模型) 学习的领域。它的核心思想极度朴素：“实践出真知” —— 如果我不知道概率，那我就多试几次，然后算平均值。 2. 蒙特卡洛估算 (MC Prediction) 2.1 核心思想：大数定律我们想求 $v_ ps(s) = [G_t | S_t = s]$。根据大数定律，如果我们能生成很多条从状态 $s$ 出发的轨迹（Episodes），并记录每一条的回报 $G$，那么它们的平均值就会收敛于期望。 $$ v_ ps(s) r rac{1}{N} sum_{i=1}^N G_i $$ 2.2 两种采样方式 First-visit MC: 在一个 Episode 中，如果多次经过 $s$，只计算第一次访问后的回报。 Every-visit MC: 只要经过...

强化学习数学原理 - 第6章：随机近似 (Stochastic Approximation)

1. 为什么学 RL 要学“随机近似”？本章看似是数学插曲，实则是连接蒙特卡洛 (MC) 和时序差分 (TD) 的桥梁。所有现代 RL 算法（Q-learning, DQN, Policy Gradient）的更新公式都长这样： $$ w ← w + α ( ext{Target} - w) $$ 这个公式是怎么来的？为什么它能收敛？这背后的数学原理就是 Robbins-Monro 算法。 2. 均值估计：从批量到增量假设我们想求随机变量 $X$ 的期望 $w = ℕ[X]$。我们可以采样 $x_1, x_2, …, x_k$。 2.1 批量计算 (Batch) $$ w_k = rac{1}{k} ∑_{i=1}^k x_i $$ 缺点：每次都要把所有数加起来除以 $k$，或者保存所有数。 2.2 增量计算 (Incremental) 我们可以推导出递推公式： $$ w_{k+1} = w_k + rac{1}{k+1} (x_{k+1} - w_k) $$ 这就是最简单的随机近似！ $w_k$: 当前的估计值。 $x_{k+1}$:...

评论

强化学习数学原理 - 序章：一张图看懂强化学习 (Course Introduction)

数据加载中