Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）

这一页是 Agentic RL 系列的导航与阅读路线图。定位是：用最少的前置，把你带到“看懂 PPO/PG loss 的公式，能对齐到代码实现，并能读懂训练日志与稳定性问题”。

配套视频与资料：

视频 01（工程组件）：BV1KFpczQEkA
视频 02（推导主线）：BV12NHJzTEoP
视频 03（PG 补充 / GRPO / 优势标准化 / On-policy）：BV18hsFzbEKJ
视频 04（REINFORCE 4 LLM / reward 设计 / PG+KL loss 细节）：BV1Ya1LB1EDM
视频 05（vLLM 推理参数 / 显存分析 / max_num_batched_tokens）：BV1QnSFBkEZU
视频 06（DeepSeekMath-v2 自我验证 / verifier + meta-verifier / 迭代验证与微调）：BV1AaSTBEEeS
视频 07（RLVR 的边界 / Base vs RL / pass@k / PPL / vLLM 评测细节）：BV1pWSvBtEAk
veRL（verl 框架 / 训练参数理解：PPO & GRPO / batch size / KL & entropy）：BV1DZL1zNEN2
veRL（verl 核心算法 / GRPO、RLOO、REINFORCE++ / Baseline）：BV1d4Yvz4EXA
veRL（FSDP SFT trainer / SFT vs RL / 交叉熵损失 / loss mask / LR scheduler）：BV1CkJgzAEAG
veRL（FSDP SFT trainer 补充 / teacher forcing / shift labels-logits / loss mask）：BV1eWjtzbEdP
veRL（MultiTurn Tool Use / Coding Agent SFT / Cold Start for RL）：BV19PmwB5ERd
veRL（Tokenizer 编解码非对称性 / token-in-token-out / Agent loop）：BV1b2pDzYEY2
Reward Model insights（Bradley-Terry / MLE / 深度学习）：BV1z4vkBBEgD
视频 10（分布视角：SFT vs RL / Forward-Reverse KL / 分布与奖励）：BV1WvrGBGEbf
视频 11（DPO：KL 正则 RL 推导 / 隐式 RM / 缺陷与不足）：BV1N16ZBuERA
视频 12（verl infra：AgentLoop / AgentLoopManager / hybrid 推训）：BV135zrBaEEU
视频 13（verl infra：AgentLoop 代码串讲 / multi-turn 推理 / ray trainer）：BV1MizSBJEbi
视频 14（verl AgentLoop：全流程与计算细节 / async rollout / 状态机 / tool-interaction）：BV18d6sBpEZq
配套仓库：wdkns/modern_genai_bilibili/agentic_rl

1. 两条阅读路径（按你的目标选）

如果你希望先把“公式链路”打通：

如果你希望先能写/改训练代码（工程优先）：

2. 系列内容地图（你看完应该掌握什么）

2.1 你会搞清楚的 5 个问题

PG loss 是什么，为什么它不是“监督学习意义上的 loss”，为什么更该看 reward curve。
log π 从哪来：log-trick 让“对分布求导”变成“对 logprob 求导”。
ratio r=π/π_old 从哪来：重要性采样让你能复用旧策略采样的数据做多步更新。
TRPO 在约束什么：KL trust region 的直觉与局限（实现成本高）。
PPO-clip 在做什么近似：clip 生效的 case-by-case，为什么能稳住训练，以及它的副作用（探索/概率上限）。

2.2 你会对齐到代码的关键点

r = exp(logp_new - logp_old)：PPO 公式看起来“没 log”，但实现里 log 只是被藏进 ratio 计算了。
advantages.detach() / old_logp.detach()：采样得到的信号当常数，梯度只通过当前策略回传。
clip fraction / KL / entropy：稳定性指标怎么看、怎么联动调参。
agg_loss（token/seq/group mean/sum）：聚合方式如何改变梯度尺度，从而改变你对学习率和系数的“手感”。

3. 文章列表（按主题）

推导主线（PG -> TRPO -> PPO-clip）
- Agentic RL：从 PG 到 TRPO 到 PPO-Clip（推导与代码对齐）
工程组件（PPO-clip / Dual-clip / Entropy / KL / 聚合）
- Agentic RL：PG Loss 组件详解（PPO-clip / Dual-Clip / Entropy / KL / 聚合）
RL4LLM 最小闭环（REINFORCE + reward + KL）
- Agentic RL：REINFORCE 4 LLM（Reward 设计与 PG+KL Loss 细节）
Reward Model / Preference Modeling（Bradley-Terry / MLE / RM 边界）
- Agentic RL：Reward Model Insights（Bradley-Terry、MLE 与深度学习）
分布视角：SFT vs RL（Forward/Reverse KL、分布与奖励）
- Agentic RL：分布视角理解 SFT 与 RL（Forward/Reverse KL、分布与奖励）
偏好优化：DPO（KL 正则 RL / 隐式 RM / 缺陷与不足）
- Agentic RL：重新理解 DPO（KL 正则 RL、隐式奖励模型与缺陷）
推理部署与吞吐调优（vLLM）
- Agentic RL：vLLM 参数配置、显存分析与性能调优（max_num_batched_tokens）
Reasoning 的评测闭环（Verifier / Meta-Verifier / Self-Verification）
- Agentic RL：DeepSeekMath-v2 自我验证（Verifier & Meta-Verifier）
RLVR 的边界与评测指标（Base vs RL / pass@k / PPL / vLLM logprob 细节）
- Agentic RL：RLVR 的边界（Base vs RL、pass@k、PPL 与 vLLM 评测细节）
veRL（verl）训练框架与参数理解（PPO & GRPO / batch size / KL & entropy / loss 聚合）
- Agentic RL：veRL（verl）训练参数理解（PPO & GRPO、Batch Size、KL & Entropy）
veRL（verl）核心算法与 Baseline（GRPO / RLOO / REINFORCE++）
- Agentic RL：veRL 核心强化学习算法（GRPO、RLOO、REINFORCE++）与 Baseline 设计
SFT 工程（FSDP trainer / 交叉熵 / loss mask / scheduler）
- Agentic RL：veRL FSDP SFT Trainer（SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler）
- Agentic RL：veRL FSDP SFT Trainer 补充（Teacher Forcing、Shift Labels/Logits、Loss Mask）
Tool Use Agent（MultiTurn / Coding Agent / Cold Start for RL）
- Agentic RL：veRL MultiTurn Tool Use 与 Coding Agent SFT（Cold Start for RL）
veRL Infra（AgentLoop / Async Rollout / Ray Trainer / multi-turn 推理）
Tokenizer / Token-in-Token-out（RL 训练稳定性）
- Agentic RL：Tokenizer 编解码非对称性与 Token-in-Token-out（RL 训练崩溃的根因）

4. 下一步（面向 Agentic RL / Deep Research）

如果你的最终目标是 agentic RL 用于 deep research 任务，建议你在“先看懂 PPO/PG loss”之后尽快做两件事：

明确你的“研究型任务”到底在优化什么：质量、引用覆盖、事实一致性、成本、时延，哪些能被可靠评测，哪些只能做 proxy。
决定训练对象：先训 agent 决策层（检索/工具/规划策略）还是直接训 LLM token policy（更吃数据/算力/评测闭环）。

后续如果你要把这个系列扩展到 PPO/GRPO 在 LLM-RL 框架里的工程落地（rollout、reward manager、objective、聚合与调参），我可以继续按同样方式把 verl / openrlhf 的链路拆开整理成可复现笔记。