这一页是 Agentic RL 系列的导航与阅读路线图。定位是:用最少的前置,把你带到“看懂 PPO/PG loss 的公式,能对齐到代码实现,并能读懂训练日志与稳定性问题”。

配套视频与资料:

  • 视频 01(工程组件):BV1KFpczQEkA
  • 视频 02(推导主线):BV12NHJzTEoP
  • 视频 03(PG 补充 / GRPO / 优势标准化 / On-policy):BV18hsFzbEKJ
  • 视频 04(REINFORCE 4 LLM / reward 设计 / PG+KL loss 细节):BV1Ya1LB1EDM
  • 视频 05(vLLM 推理参数 / 显存分析 / max_num_batched_tokens):BV1QnSFBkEZU
  • 视频 06(DeepSeekMath-v2 自我验证 / verifier + meta-verifier / 迭代验证与微调):BV1AaSTBEEeS
  • 视频 07(RLVR 的边界 / Base vs RL / pass@k / PPL / vLLM 评测细节):BV1pWSvBtEAk
  • veRL(verl 框架 / 训练参数理解:PPO & GRPO / batch size / KL & entropy):BV1DZL1zNEN2
  • veRL(verl 核心算法 / GRPO、RLOO、REINFORCE++ / Baseline):BV1d4Yvz4EXA
  • veRL(FSDP SFT trainer / SFT vs RL / 交叉熵损失 / loss mask / LR scheduler):BV1CkJgzAEAG
  • veRL(FSDP SFT trainer 补充 / teacher forcing / shift labels-logits / loss mask):BV1eWjtzbEdP
  • veRL(MultiTurn Tool Use / Coding Agent SFT / Cold Start for RL):BV19PmwB5ERd
  • veRL(Tokenizer 编解码非对称性 / token-in-token-out / Agent loop):BV1b2pDzYEY2
  • Reward Model insights(Bradley-Terry / MLE / 深度学习):BV1z4vkBBEgD
  • 视频 10(分布视角:SFT vs RL / Forward-Reverse KL / 分布与奖励):BV1WvrGBGEbf
  • 视频 11(DPO:KL 正则 RL 推导 / 隐式 RM / 缺陷与不足):BV1N16ZBuERA
  • 视频 12(verl infra:AgentLoop / AgentLoopManager / hybrid 推训):BV135zrBaEEU
  • 视频 13(verl infra:AgentLoop 代码串讲 / multi-turn 推理 / ray trainer):BV1MizSBJEbi
  • 视频 14(verl AgentLoop:全流程与计算细节 / async rollout / 状态机 / tool-interaction):BV18d6sBpEZq
  • 配套仓库:wdkns/modern_genai_bilibili/agentic_rl

1. 两条阅读路径(按你的目标选)

如果你希望先把“公式链路”打通:

  1. 02 从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
  2. 01 PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)
  3. 04 REINFORCE 4 LLM(Reward 设计 / PG+KL loss 细节 / KL 计算坑点)
  4. 09 Reward Model Insights(Bradley-Terry / MLE / 深度学习)
  5. 10 分布视角理解 SFT 与 RL(Forward/Reverse KL、分布与奖励)
  6. 11 重新理解 DPO(KL 正则 RL / 隐式 RM / 缺陷与不足)
  7. 05 vLLM 推理参数与显存/吞吐调优(max_num_batched_tokens)
  8. 06 DeepSeekMath-v2:Verifier + Meta-Verifier 与 Self-Verification
  9. 07 RLVR 的边界:Base vs RL、pass@k、PPL 与 vLLM 评测细节
  10. veRL(verl)训练参数理解:PPO & GRPO、Batch Size、KL & Entropy
  11. veRL 核心算法:GRPO / RLOO / REINFORCE++ 与 Baseline 设计
  12. veRL:FSDP SFT Trainer(交叉熵 / loss mask / scheduler)
  13. veRL:SFT Trainer 补充(Teacher Forcing / Shift / Loss Mask 对齐)
  14. veRL:MultiTurn Tool Use / Coding Agent SFT(Cold Start for RL)
  15. 12 veRL Infra:AgentLoop、AgentLoopManager 与 hybrid 推训
  16. 13 veRL Infra:AgentLoop 代码串讲(multi-turn 推理 / Ray trainer)
  17. 14 veRL AgentLoop 全流程与计算细节(async rollout / 状态机 / tool-interaction)
  18. Tokenizer 非对称性与 Token-in-Token-out(RL 训练崩溃的根因)

如果你希望先能写/改训练代码(工程优先):

  1. 01 PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)
  2. 02 从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
  3. 04 REINFORCE 4 LLM(Reward 设计 / PG+KL loss 细节 / KL 计算坑点)
  4. 09 Reward Model Insights(Bradley-Terry / MLE / 深度学习)
  5. 10 分布视角理解 SFT 与 RL(Forward/Reverse KL、分布与奖励)
  6. 11 重新理解 DPO(KL 正则 RL / 隐式 RM / 缺陷与不足)
  7. 05 vLLM 推理参数与显存/吞吐调优(max_num_batched_tokens)
  8. 06 DeepSeekMath-v2:Verifier + Meta-Verifier 与 Self-Verification
  9. 07 RLVR 的边界:Base vs RL、pass@k、PPL 与 vLLM 评测细节
  10. veRL(verl)训练参数理解:PPO & GRPO、Batch Size、KL & Entropy
  11. veRL 核心算法:GRPO / RLOO / REINFORCE++ 与 Baseline 设计
  12. veRL:FSDP SFT Trainer(交叉熵 / loss mask / scheduler)
  13. veRL:SFT Trainer 补充(Teacher Forcing / Shift / Loss Mask 对齐)
  14. veRL:MultiTurn Tool Use / Coding Agent SFT(Cold Start for RL)
  15. 12 veRL Infra:AgentLoop、AgentLoopManager 与 hybrid 推训
  16. 13 veRL Infra:AgentLoop 代码串讲(multi-turn 推理 / Ray trainer)
  17. 14 veRL AgentLoop 全流程与计算细节(async rollout / 状态机 / tool-interaction)
  18. Tokenizer 非对称性与 Token-in-Token-out(RL 训练崩溃的根因)

2. 系列内容地图(你看完应该掌握什么)

2.1 你会搞清楚的 5 个问题

  1. PG loss 是什么,为什么它不是“监督学习意义上的 loss”,为什么更该看 reward curve。
  2. log π 从哪来:log-trick 让“对分布求导”变成“对 logprob 求导”。
  3. ratio r=π/π_old 从哪来:重要性采样让你能复用旧策略采样的数据做多步更新。
  4. TRPO 在约束什么:KL trust region 的直觉与局限(实现成本高)。
  5. PPO-clip 在做什么近似:clip 生效的 case-by-case,为什么能稳住训练,以及它的副作用(探索/概率上限)。

2.2 你会对齐到代码的关键点

  1. r = exp(logp_new - logp_old):PPO 公式看起来“没 log”,但实现里 log 只是被藏进 ratio 计算了。
  2. advantages.detach() / old_logp.detach():采样得到的信号当常数,梯度只通过当前策略回传。
  3. clip fraction / KL / entropy:稳定性指标怎么看、怎么联动调参。
  4. agg_loss(token/seq/group mean/sum):聚合方式如何改变梯度尺度,从而改变你对学习率和系数的“手感”。

3. 文章列表(按主题)


4. 下一步(面向 Agentic RL / Deep Research)

如果你的最终目标是 agentic RL 用于 deep research 任务,建议你在“先看懂 PPO/PG loss”之后尽快做两件事:

  1. 明确你的“研究型任务”到底在优化什么:质量、引用覆盖、事实一致性、成本、时延,哪些能被可靠评测,哪些只能做 proxy。
  2. 决定训练对象:先训 agent 决策层(检索/工具/规划策略)还是直接训 LLM token policy(更吃数据/算力/评测闭环)。

后续如果你要把这个系列扩展到 PPO/GRPO 在 LLM-RL 框架里的工程落地(rollout、reward manager、objective、聚合与调参),我可以继续按同样方式把 verl / openrlhf 的链路拆开整理成可复现笔记。