Agentic RL:veRL FSDP SFT Trainer(SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler)
这篇文章对应视频:“[veRL] FSDP SFT trainer,SFT vs. RL,交叉熵损失 | loss mask | learning rate scheduler”(BV1CkJgzAEAG)。 补充篇(更聚焦 teacher forcing / shift labels-logits / loss mask 对齐): veRL:FSDP SFT Trainer 补充(Teacher Forcing / Shift / Loss Mask) 进一步把 SFT 接到 tool-use agent 的 cold start(MultiTurn Tool Use / Coding Agent): veRL:MultiTurn Tool Use / Coding Agent SFT(Cold Start for RL) 但我会把它写成一份“可落地的工程读物”,而不是视频逐句复刻。你看完应该能回答这些问题: 为什么做 agentic RL / RLHF 之前,SFT 反而是你最不该糊弄的一步? causal LM...
Agentic RL:veRL 核心强化学习算法(GRPO、RLOO、REINFORCE++)与 Baseline 设计
这篇文章对应视频:“[veRL] 核心强化学习算法,GRPO、RLOO、REINFORCE++、REINFORCE++ baseline”(BV1d4Yvz4EXA)。 但我不会把它写成“视频逐句笔记”,而是把 veRL 里这些算法放到同一个坐标系里讲清楚: 它们本质上都在解同一个问题:不用训练 critic,也能把 outcome reward 变成稳定的更新信号。 它们真正的差异,主要集中在:baseline 怎么选、advantage 怎么归一、KL 怎么放。 你应该怎么选:不是看算法名字,而是看你的任务 reward 形态(稀疏/密集、噪声/可验证、是否能 group sampling)。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 建议先读(打通基础概念与日志诊断): PG→TRPO→PPO:推导与代码对齐 PG loss 组件详解(PPO-clip / KL / Entropy / 聚合) veRL...
Agentic RL:veRL(verl)训练参数理解(PPO & GRPO、Batch Size、KL & Entropy)
这一篇对应 veRL 视频:“从原理层面理解训练参数,PPO & GRPO,batch size,kl & entropy”(BV1DZL1zNEN2)。 写这篇的目标不是“照着参数表翻译”,而是把你在 verl(veRL)里最常改、最容易踩坑的配置项,和它背后的算法对象一一对齐:你改的到底是“采样分布/有效 batch/更新步长/探索强度/保守性”,还是只是在调一个看起来像超参的数字。 我不会把视频内容当成“圣经”。这类讲解里最容易出错的两件事是: 把经验区间说成普适真理(例如某个指标“应该在 0.1-0.4”)。 把实现细节当成算法本身(例如 KL 的某种近似估计,被误当成 KL 的定义)。 所以本文会更强调“你应该如何用日志闭环验证”,而不是“照着配方抄参数”。一句话:参数之间强耦合,你改一个数字,往往同时改了“有效学习率、更新步长、数据复用程度和探索强度”。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 延伸阅读(更偏算法本体而不是参数): veRL 核心算法:GRPO / RLOO...
Agentic RL:RLVR 的边界(Base vs RL、pass@k、PPL 与 vLLM 评测细节)
这一篇对应视频 07:“limits of RLVR,base vs. RL, pass@k, ppl 基于 vLLM 计算细节以及采样效率”(BV1pWSvBtEAk)。 我把它拆成三条主线: Base vs RL 的“能力”到底在对比什么:RLVR 更像分布削尖(distribution sharpening)还是能力外推(capability uplift)? 为什么一定要看 pass@k 而不只看 pass@1:以及怎么低方差地估算整条 pass@k 曲线。 怎么用 vLLM 可靠地算 PPL / entropy(评测细节):不踩坑地得到能解释现象的指标。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 配套资料(你本地已有): 视频 07:BV1pWSvBtEAk https://www.bilibili.com/video/BV1pWSvBtEAk/ 代码/笔记仓库(对应你本地下载的...
Agentic RL:DeepSeekMath-v2 自我验证(Verifier & Meta-Verifier)
这一篇对应视频 06:“DeepSeekMath-v2, 自我验证, verifier & meta verifier,验证&微调迭代”(BV1AaSTBEEeS)。 我会把它按“论文精度”的方式拆开讲清楚:为什么 verifier 必须升级成 verifier + meta-verifier,以及如何把“外部验证能力”逐步迁移到 generator(自我验证 / self-verification)上,从而降低 RL4LLM 中最典型的 reward hacking。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 0. 资料对齐(视频 + GitHub) 视频 06:BV1AaSTBEEeS https://www.bilibili.com/video/BV1AaSTBEEeS/ 配套...
Agentic RL:vLLM 参数配置、显存分析与性能调优(max_num_batched_tokens)
这一篇对应视频 05:“vLLM 参数配置、显存分析与性能调优 max_num_batched_tokens”(BV1QnSFBkEZU)。 这期的核心不是“教你把服务跑起来”,而是给你一个可以复用的调参心智模型: vLLM 的显存到底被谁吃掉(权重 / KV cache / peak activation / CUDA Graph / 杂项)。 max_model_len、max_num_seqs、max_num_batched_tokens 之间到底是谁在限制并发与吞吐。 为什么 max_num_batched_tokens 既影响“吞吐”,又会反过来影响“能留给 KV cache 的空间”(因为它参与了 profile 的 peak activation 测量)。 系列导航: Agentic RL:系列导航(PG...
Agentic RL:REINFORCE 4 LLM(Reward 设计与 PG+KL Loss 细节)
这一篇对应视频 04:“REINFORCE 4 LLM,设计 reward,如何维护和计算 PG/KL loss,KL loss 计算细节”(BV1Ya1LB1EDM)。 它的价值不在于“给你一个能把大模型训得多强的框架”,而在于把 RL4LLM 里最容易被 verl/openrlhf/... 这些工程封装遮住的核心逻辑,拆成一个可手写、可调试、可逐行对齐公式的最小闭环: LLM 作为 policy:state/action/trajectory 怎么映射 REINFORCE/PG loss 在 LLM 上怎么落地:联合 logprob 怎么维护 KL penalty 为什么是“语言能力 vs reward-max”的拨杆 KL 计算最容易踩坑在哪里:sum vs mean / fKL vs rKL / mask 与聚合 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 建议阅读顺序(我按“先理解再工程”的顺序排): 02&03:PG→TRPO→PPO + GRPO/On-policy...
Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip)
这一页是 Agentic RL 系列的导航与阅读路线图。定位是:用最少的前置,把你带到“看懂 PPO/PG loss 的公式,能对齐到代码实现,并能读懂训练日志与稳定性问题”。 配套视频与资料: 视频 01(工程组件):BV1KFpczQEkA 视频 02(推导主线):BV12NHJzTEoP 视频 03(PG 补充 / GRPO / 优势标准化 / On-policy):BV18hsFzbEKJ 视频 04(REINFORCE 4 LLM / reward 设计 / PG+KL loss 细节):BV1Ya1LB1EDM 视频 05(vLLM 推理参数 / 显存分析 / max_num_batched_tokens):BV1QnSFBkEZU 视频 06(DeepSeekMath-v2 自我验证 / verifier + meta-verifier / 迭代验证与微调):BV1AaSTBEEeS 视频 07(RLVR 的边界 / Base vs RL / pass@k / PPL / vLLM 评测细节):BV1pWSvBtEAk veRL(verl 框架 /...
Agentic RL:从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
这篇文章面向“RL 基础薄弱但想快速读懂 PPO/Agentic RL 训练代码”的读者,目标是把下面三件事讲清楚,并且和你能跑起来的代码一一对应: PG loss 到底是什么:它不是“监督学习意义上的 loss”,而是为了拿到正确梯度构造的 surrogate(代理目标)。 TRPO 想解决什么:为什么要用 KL trust region 限制策略更新幅度。 PPO-clip 为什么长这样:clip 不是拍脑袋,而是在做一个“好实现”的 trust region 近似。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 配套资料来自 B 站视频与仓库(建议你边看边对照): 视频 02:[Agentic RL] 02 策略梯度基础,从 PG 到 TRPO 到 PPO-Clip 核心公式简单推导 https://www.bilibili.com/video/BV12NHJzTEoP/ 视频 03:[Agentic RL] 03 策略梯度补充,GRPO loss 分析,优势标准化,On...
Agentic RL:PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)
这篇文章把「Agentic RL / LLM-RL 训练里常见的 Policy Gradient (PG) loss 到底由哪些组件拼起来」讲清楚,重点解释: PPO-clip:为什么要 clip、clip 住了哪些情况、什么时候梯度为 0 Dual-clip:它在 PPO-clip 基础上到底“多 clip 了什么”,解决什么不稳定 Entropy / KL:为什么要加正则、权重怎么理解 聚合(aggregate):token/sequence/group 维度的 sum/mean 会如何改变梯度尺度 推导补全(视频 02):从 REINFORCE / PG 到 TRPO,再到 PPO-clip,解释 log pi、ratio、以及“为什么 PPO 公式里看起来没有 log” 本文偏“工程视角”:你看完应该能把这些项在代码里正确实现出来,并能解释训练曲线为什么会那样。 补充说明:下面不少“实现细节/监控指标/聚合模式”的表述,我会刻意对齐 verl 生态里常见写法。 我不会把任何视频/博客里的“经验区间”当成硬规则。对 LLM-RL...

