1. 欢迎来到强化学习的数学世界
强化学习(Reinforcement Learning, RL)近年来在围棋(AlphaGo)、游戏(Dota 2, StarCraft II)以及大模型训练(RLHF)中取得了举世瞩目的成就。然而,很多初学者往往陷入“会调包,不懂原理”的困境。
本系列笔记基于 西湖大学赵世钰老师 的经典教材《Mathematical Foundations of Reinforcement Learning》及其 B 站配套课程整理而成。我们的目标是:不仅知道 RL 怎么用,更要从数学底层看透它为什么能跑通。
2. 一张图讲完强化学习原理
在课程的开头,赵老师用一张极其经典的图概括了 RL 的全貌。理解了这张图,你就理解了 RL 的核心动力学。
核心循环 (The Loop)
- Agent (智能体):决策的主体(比如机器人、AI 程序)。
- Environment (环境):Agent 交互的对象(比如物理世界、棋盘)。
- State ($S_t$):环境给 Agent 的反馈信息(你在哪?情况如何?)。
- Action ($A_t$):Agent 根据 $S_t$ 做的决策(往哪走?做什么?)。
- Reward ($R_{t+1}$):环境给出的即时奖惩(做对了吗?)。
三个关键函数
在数学建模中,我们其实一直在围着这三个函数打转:
- Policy $\pi(a|s)$:你的决策规则。
- Transition $p(s’|s,a)$:环境的物理规律。
- Value $v(s)$:评估一个处境的“长远前途”。
3. 本系列笔记的学习路径 (Roadmap)
我们将按照“基础 -> 算法 -> 进阶”的顺序,分 10 个章节进行深度拆解:
第一阶段:数学地基 (Chapters 1-4)
- 第1章:基本概念 —— 认识 MDP,理解 RL 的舞台。
- 第2章:贝尔曼方程 —— 评估策略好坏的数学标尺。
- 第3章:贝尔曼最优方程 —— 定义什么是“完美策略”。
- 第4章:值迭代与策略迭代 —— 拥有“上帝视角”时的最优解法。
第二阶段:实战演操 (Chapters 5-7)
- 第5章:蒙特卡洛方法 —— 丢掉“上帝视角”,从试错中学习。
- 第6章:随机近似 —— 现代 RL 更新公式背后的硬核数学(SGD 的本质)。
- 第7章:时序差分 (TD) —— 强化学习的灵魂,Sarsa 与 Q-learning。
第三阶段:深度进化 (Chapters 8-10)
- 第8章:值函数近似 —— 引入神经网络,征服无限状态 (DQN)。
- 第9章:策略梯度 —— 直接优化决策动作,处理连续空间 (REINFORCE)。
- 第10章:Actor-Critic —— 演员与评论家的终极配合 (A2C)。
4. 为什么这门课与众不同?
- 严谨性:不同于 Sutton 的教材(更偏直觉),赵老师的课非常强调数学证明(如压缩映射定理、RM 条件)。
- 工程化:每章笔记我们都会配上 Python/PyTorch 代码,确保公式能落地。
- 系统性:从简单的 GridWorld(网格世界)出发,一步步推导到现代大模型都在用的 RL 技术。
现在,请系好安全带,让我们从 第1章:基本概念 开始这段数学旅程。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 WPIRONMAN!
评论

