Agentic RL:从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
Agentic RL:PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)
强化学习数学原理 - 第10章:Actor-Critic 方法 (Actor-Critic Methods)
强化学习数学原理 - 第9章:策略梯度方法 (Policy Gradient Methods)
强化学习数学原理 - 第8章:值函数近似 (Value Function Approximation)
强化学习数学原理 - 第7章:时序差分方法 (Temporal-Difference Methods)
强化学习数学原理 - 第6章:随机近似 (Stochastic Approximation)
强化学习数学原理 - 第5章:蒙特卡洛方法 (Monte Carlo Methods)
强化学习数学原理 - 第4章:值迭代与策略迭代 (Value & Policy Iteration)
强化学习数学原理 - 第3章:最优状态值与贝尔曼最优方程 (Bellman Optimality)