全部文章 - 76
2026
Agentic RL:从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
Agentic RL:从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
Agentic RL:PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)
Agentic RL:PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)
强化学习数学原理 - 第10章:Actor-Critic 方法 (Actor-Critic Methods)
强化学习数学原理 - 第10章:Actor-Critic 方法 (Actor-Critic Methods)
强化学习数学原理 - 第9章:策略梯度方法 (Policy Gradient Methods)
强化学习数学原理 - 第9章:策略梯度方法 (Policy Gradient Methods)
强化学习数学原理 - 第8章:值函数近似 (Value Function Approximation)
强化学习数学原理 - 第8章:值函数近似 (Value Function Approximation)
强化学习数学原理 - 第7章:时序差分方法 (Temporal-Difference Methods)
强化学习数学原理 - 第7章:时序差分方法 (Temporal-Difference Methods)
强化学习数学原理 - 第6章:随机近似 (Stochastic Approximation)
强化学习数学原理 - 第6章:随机近似 (Stochastic Approximation)
强化学习数学原理 - 第5章:蒙特卡洛方法 (Monte Carlo Methods)
强化学习数学原理 - 第5章:蒙特卡洛方法 (Monte Carlo Methods)
强化学习数学原理 - 第4章:值迭代与策略迭代 (Value & Policy Iteration)
强化学习数学原理 - 第4章:值迭代与策略迭代 (Value & Policy Iteration)
强化学习数学原理 - 第3章:最优状态值与贝尔曼最优方程 (Bellman Optimality)
强化学习数学原理 - 第3章:最优状态值与贝尔曼最优方程 (Bellman Optimality)
强化学习数学原理 - 第2章:贝尔曼方程 (Bellman Equation)
强化学习数学原理 - 第2章:贝尔曼方程 (Bellman Equation)
强化学习数学原理 - 第1章:基本概念 (Basic Concepts)
强化学习数学原理 - 第1章:基本概念 (Basic Concepts)
强化学习数学原理 - 必备数学基础 (Mathematical Preliminaries)
强化学习数学原理 - 必备数学基础 (Mathematical Preliminaries)
强化学习数学原理 - 序章:一张图看懂强化学习 (Course Introduction)
强化学习数学原理 - 序章:一张图看懂强化学习 (Course Introduction)
2025
扩散模型
扩散模型
门控注意力
门控注意力
开学三个月小记
开学三个月小记
深度学习优化器全家桶:从 SGD 到 AdamW 及未来
深度学习优化器全家桶:从 SGD 到 AdamW 及未来
深度学习损失函数:从 MSE 到 Focal Loss
深度学习损失函数:从 MSE 到 Focal Loss
深度学习杂谈:残差、MAE与特征维度的本质思考
深度学习杂谈:残差、MAE与特征维度的本质思考