1. 欢迎来到强化学习的数学世界

强化学习(Reinforcement Learning, RL)近年来在围棋(AlphaGo)、游戏(Dota 2, StarCraft II)以及大模型训练(RLHF)中取得了举世瞩目的成就。然而,很多初学者往往陷入“会调包,不懂原理”的困境。

本系列笔记基于 西湖大学赵世钰老师 的经典教材《Mathematical Foundations of Reinforcement Learning》及其 B 站配套课程整理而成。我们的目标是:不仅知道 RL 怎么用,更要从数学底层看透它为什么能跑通。


2. 一张图讲完强化学习原理

在课程的开头,赵老师用一张极其经典的图概括了 RL 的全貌。理解了这张图,你就理解了 RL 的核心动力学。

核心循环 (The Loop)

  1. Agent (智能体):决策的主体(比如机器人、AI 程序)。
  2. Environment (环境):Agent 交互的对象(比如物理世界、棋盘)。
  3. State ($S_t$):环境给 Agent 的反馈信息(你在哪?情况如何?)。
  4. Action ($A_t$):Agent 根据 $S_t$ 做的决策(往哪走?做什么?)。
  5. Reward ($R_{t+1}$):环境给出的即时奖惩(做对了吗?)。

三个关键函数

在数学建模中,我们其实一直在围着这三个函数打转:

  • Policy $\pi(a|s)$:你的决策规则。
  • Transition $p(s’|s,a)$:环境的物理规律。
  • Value $v(s)$:评估一个处境的“长远前途”。

3. 本系列笔记的学习路径 (Roadmap)

我们将按照“基础 -> 算法 -> 进阶”的顺序,分 10 个章节进行深度拆解:

第一阶段:数学地基 (Chapters 1-4)

  • 第1章:基本概念 —— 认识 MDP,理解 RL 的舞台。
  • 第2章:贝尔曼方程 —— 评估策略好坏的数学标尺。
  • 第3章:贝尔曼最优方程 —— 定义什么是“完美策略”。
  • 第4章:值迭代与策略迭代 —— 拥有“上帝视角”时的最优解法。

第二阶段:实战演操 (Chapters 5-7)

  • 第5章:蒙特卡洛方法 —— 丢掉“上帝视角”,从试错中学习。
  • 第6章:随机近似 —— 现代 RL 更新公式背后的硬核数学(SGD 的本质)。
  • 第7章:时序差分 (TD) —— 强化学习的灵魂,Sarsa 与 Q-learning。

第三阶段:深度进化 (Chapters 8-10)

  • 第8章:值函数近似 —— 引入神经网络,征服无限状态 (DQN)。
  • 第9章:策略梯度 —— 直接优化决策动作,处理连续空间 (REINFORCE)。
  • 第10章:Actor-Critic —— 演员与评论家的终极配合 (A2C)。

4. 为什么这门课与众不同?

  1. 严谨性:不同于 Sutton 的教材(更偏直觉),赵老师的课非常强调数学证明(如压缩映射定理、RM 条件)。
  2. 工程化:每章笔记我们都会配上 Python/PyTorch 代码,确保公式能落地。
  3. 系统性:从简单的 GridWorld(网格世界)出发,一步步推导到现代大模型都在用的 RL 技术。

现在,请系好安全带,让我们从 第1章:基本概念 开始这段数学旅程。


下一章:第1章 - 基本概念 >>