这一页是 Agentic RL 系列的导航与阅读路线图。定位是:用最少的前置,把你带到“看懂 PPO/PG loss 的公式,能对齐到代码实现,并能读懂训练日志与稳定性问题”。
配套视频与资料:
- 视频 01(工程组件):BV1KFpczQEkA
- 视频 02(推导主线):BV12NHJzTEoP
- 视频 03(PG 补充 / GRPO / 优势标准化 / On-policy):BV18hsFzbEKJ
- 视频 04(REINFORCE 4 LLM / reward 设计 / PG+KL loss 细节):BV1Ya1LB1EDM
- 视频 05(vLLM 推理参数 / 显存分析 / max_num_batched_tokens):BV1QnSFBkEZU
- 视频 06(DeepSeekMath-v2 自我验证 / verifier + meta-verifier / 迭代验证与微调):BV1AaSTBEEeS
- 视频 07(RLVR 的边界 / Base vs RL / pass@k / PPL / vLLM 评测细节):BV1pWSvBtEAk
- veRL(verl 框架 / 训练参数理解:PPO & GRPO / batch size / KL & entropy):BV1DZL1zNEN2
- veRL(verl 核心算法 / GRPO、RLOO、REINFORCE++ / Baseline):BV1d4Yvz4EXA
- veRL(FSDP SFT trainer / SFT vs RL / 交叉熵损失 / loss mask / LR scheduler):BV1CkJgzAEAG
- veRL(FSDP SFT trainer 补充 / teacher forcing / shift labels-logits / loss mask):BV1eWjtzbEdP
- veRL(MultiTurn Tool Use / Coding Agent SFT / Cold Start for RL):BV19PmwB5ERd
- veRL(Tokenizer 编解码非对称性 / token-in-token-out / Agent loop):BV1b2pDzYEY2
- Reward Model insights(Bradley-Terry / MLE / 深度学习):BV1z4vkBBEgD
- 视频 10(分布视角:SFT vs RL / Forward-Reverse KL / 分布与奖励):BV1WvrGBGEbf
- 视频 11(DPO:KL 正则 RL 推导 / 隐式 RM / 缺陷与不足):BV1N16ZBuERA
- 视频 12(verl infra:AgentLoop / AgentLoopManager / hybrid 推训):BV135zrBaEEU
- 视频 13(verl infra:AgentLoop 代码串讲 / multi-turn 推理 / ray trainer):BV1MizSBJEbi
- 视频 14(verl AgentLoop:全流程与计算细节 / async rollout / 状态机 / tool-interaction):BV18d6sBpEZq
- 配套仓库:wdkns/modern_genai_bilibili/agentic_rl
1. 两条阅读路径(按你的目标选)
如果你希望先把“公式链路”打通:
- 02 从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
- 01 PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)
- 04 REINFORCE 4 LLM(Reward 设计 / PG+KL loss 细节 / KL 计算坑点)
- 09 Reward Model Insights(Bradley-Terry / MLE / 深度学习)
- 10 分布视角理解 SFT 与 RL(Forward/Reverse KL、分布与奖励)
- 11 重新理解 DPO(KL 正则 RL / 隐式 RM / 缺陷与不足)
- 05 vLLM 推理参数与显存/吞吐调优(max_num_batched_tokens)
- 06 DeepSeekMath-v2:Verifier + Meta-Verifier 与 Self-Verification
- 07 RLVR 的边界:Base vs RL、pass@k、PPL 与 vLLM 评测细节
- veRL(verl)训练参数理解:PPO & GRPO、Batch Size、KL & Entropy
- veRL 核心算法:GRPO / RLOO / REINFORCE++ 与 Baseline 设计
- veRL:FSDP SFT Trainer(交叉熵 / loss mask / scheduler)
- veRL:SFT Trainer 补充(Teacher Forcing / Shift / Loss Mask 对齐)
- veRL:MultiTurn Tool Use / Coding Agent SFT(Cold Start for RL)
- 12 veRL Infra:AgentLoop、AgentLoopManager 与 hybrid 推训
- 13 veRL Infra:AgentLoop 代码串讲(multi-turn 推理 / Ray trainer)
- 14 veRL AgentLoop 全流程与计算细节(async rollout / 状态机 / tool-interaction)
- Tokenizer 非对称性与 Token-in-Token-out(RL 训练崩溃的根因)
如果你希望先能写/改训练代码(工程优先):
- 01 PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)
- 02 从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
- 04 REINFORCE 4 LLM(Reward 设计 / PG+KL loss 细节 / KL 计算坑点)
- 09 Reward Model Insights(Bradley-Terry / MLE / 深度学习)
- 10 分布视角理解 SFT 与 RL(Forward/Reverse KL、分布与奖励)
- 11 重新理解 DPO(KL 正则 RL / 隐式 RM / 缺陷与不足)
- 05 vLLM 推理参数与显存/吞吐调优(max_num_batched_tokens)
- 06 DeepSeekMath-v2:Verifier + Meta-Verifier 与 Self-Verification
- 07 RLVR 的边界:Base vs RL、pass@k、PPL 与 vLLM 评测细节
- veRL(verl)训练参数理解:PPO & GRPO、Batch Size、KL & Entropy
- veRL 核心算法:GRPO / RLOO / REINFORCE++ 与 Baseline 设计
- veRL:FSDP SFT Trainer(交叉熵 / loss mask / scheduler)
- veRL:SFT Trainer 补充(Teacher Forcing / Shift / Loss Mask 对齐)
- veRL:MultiTurn Tool Use / Coding Agent SFT(Cold Start for RL)
- 12 veRL Infra:AgentLoop、AgentLoopManager 与 hybrid 推训
- 13 veRL Infra:AgentLoop 代码串讲(multi-turn 推理 / Ray trainer)
- 14 veRL AgentLoop 全流程与计算细节(async rollout / 状态机 / tool-interaction)
- Tokenizer 非对称性与 Token-in-Token-out(RL 训练崩溃的根因)
2. 系列内容地图(你看完应该掌握什么)
2.1 你会搞清楚的 5 个问题
- PG loss 是什么,为什么它不是“监督学习意义上的 loss”,为什么更该看 reward curve。
log π从哪来:log-trick 让“对分布求导”变成“对 logprob 求导”。- ratio
r=π/π_old从哪来:重要性采样让你能复用旧策略采样的数据做多步更新。 - TRPO 在约束什么:KL trust region 的直觉与局限(实现成本高)。
- PPO-clip 在做什么近似:clip 生效的 case-by-case,为什么能稳住训练,以及它的副作用(探索/概率上限)。
2.2 你会对齐到代码的关键点
r = exp(logp_new - logp_old):PPO 公式看起来“没 log”,但实现里 log 只是被藏进 ratio 计算了。advantages.detach()/old_logp.detach():采样得到的信号当常数,梯度只通过当前策略回传。clip fraction / KL / entropy:稳定性指标怎么看、怎么联动调参。agg_loss(token/seq/group mean/sum):聚合方式如何改变梯度尺度,从而改变你对学习率和系数的“手感”。
3. 文章列表(按主题)
- 推导主线(PG -> TRPO -> PPO-clip)
- 工程组件(PPO-clip / Dual-clip / Entropy / KL / 聚合)
- RL4LLM 最小闭环(REINFORCE + reward + KL)
- Reward Model / Preference Modeling(Bradley-Terry / MLE / RM 边界)
- 分布视角:SFT vs RL(Forward/Reverse KL、分布与奖励)
- 偏好优化:DPO(KL 正则 RL / 隐式 RM / 缺陷与不足)
- 推理部署与吞吐调优(vLLM)
- Reasoning 的评测闭环(Verifier / Meta-Verifier / Self-Verification)
- RLVR 的边界与评测指标(Base vs RL / pass@k / PPL / vLLM logprob 细节)
- veRL(verl)训练框架与参数理解(PPO & GRPO / batch size / KL & entropy / loss 聚合)
- veRL(verl)核心算法与 Baseline(GRPO / RLOO / REINFORCE++)
- SFT 工程(FSDP trainer / 交叉熵 / loss mask / scheduler)
- Tool Use Agent(MultiTurn / Coding Agent / Cold Start for RL)
- veRL Infra(AgentLoop / Async Rollout / Ray Trainer / multi-turn 推理)
- Tokenizer / Token-in-Token-out(RL 训练稳定性)
4. 下一步(面向 Agentic RL / Deep Research)
如果你的最终目标是 agentic RL 用于 deep research 任务,建议你在“先看懂 PPO/PG loss”之后尽快做两件事:
- 明确你的“研究型任务”到底在优化什么:质量、引用覆盖、事实一致性、成本、时延,哪些能被可靠评测,哪些只能做 proxy。
- 决定训练对象:先训 agent 决策层(检索/工具/规划策略)还是直接训 LLM token policy(更吃数据/算力/评测闭环)。
后续如果你要把这个系列扩展到 PPO/GRPO 在 LLM-RL 框架里的工程落地(rollout、reward manager、objective、聚合与调参),我可以继续按同样方式把 verl / openrlhf 的链路拆开整理成可复现笔记。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 WPIRONMAN!
评论

