Agentic RL:veRL MultiTurn Tool Use 与 Coding Agent SFT(Cold Start for RL)
这篇文章对应视频:【[Agentic RL] [VeRL] 08 MultiTurn Tool Use, Coding Agent SFT 训练,Cold Start for RL】(BV19PmwB5ERd)。 但我不会把它写成“逐句复盘”的笔记,而是把它抽象成一套你能复用的工程方法论:如果你要做一个 multi-turn tool-use 的 coding agent,并且希望后续能接上 PPO/GRPO/DAPO 这类 RL 训练,你在 数据、mask、rollout 结构、reward 形态 上要先把哪些坑填平。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 关联阅读(建议顺序): SFT trainer 主篇:交叉熵 / loss mask / scheduler SFT 补充:teacher forcing / shift / mask 对齐 RL 算法侧:GRPO/RLOO/REINFORCE++ 与 baseline 推理侧:vLLM...
Agentic RL:veRL FSDP SFT Trainer 补充(Teacher Forcing、Shift Labels/Logits、Loss Mask)
这篇文章对应视频:“[veRL] fsdp sft trainer 补充,teacher forcing、shift labels shift logits、loss mask”(BV1eWjtzbEdP)。 它是上一篇 SFT trainer 文章的“补充篇”,专门把三个最容易写错、但一错就会把模型训歪的细节讲透: Teacher forcing:SFT 到底在“喂什么”给模型,喂错会导致什么偏差。 Shift labels / shift logits:为什么 causal LM 的 CE loss 天生存在“错一位”,实现里你必须显式对齐。 Loss mask:multi-turn + tool-use 数据里,你到底要监督哪些 token;mask 在 shift 前后怎么对齐。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 关联阅读(建议先看主篇再看补充): veRL:FSDP SFT Trainer 主篇(交叉熵 / loss mask /...
Agentic RL:veRL FSDP SFT Trainer(SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler)
这篇文章对应视频:“[veRL] FSDP SFT trainer,SFT vs. RL,交叉熵损失 | loss mask | learning rate scheduler”(BV1CkJgzAEAG)。 补充篇(更聚焦 teacher forcing / shift labels-logits / loss mask 对齐): veRL:FSDP SFT Trainer 补充(Teacher Forcing / Shift / Loss Mask) 进一步把 SFT 接到 tool-use agent 的 cold start(MultiTurn Tool Use / Coding Agent): veRL:MultiTurn Tool Use / Coding Agent SFT(Cold Start for RL) 但我会把它写成一份“可落地的工程读物”,而不是视频逐句复刻。你看完应该能回答这些问题: 为什么做 agentic RL / RLHF 之前,SFT 反而是你最不该糊弄的一步? causal LM...
Agentic RL:veRL 核心强化学习算法(GRPO、RLOO、REINFORCE++)与 Baseline 设计
这篇文章对应视频:“[veRL] 核心强化学习算法,GRPO、RLOO、REINFORCE++、REINFORCE++ baseline”(BV1d4Yvz4EXA)。 但我不会把它写成“视频逐句笔记”,而是把 veRL 里这些算法放到同一个坐标系里讲清楚: 它们本质上都在解同一个问题:不用训练 critic,也能把 outcome reward 变成稳定的更新信号。 它们真正的差异,主要集中在:baseline 怎么选、advantage 怎么归一、KL 怎么放。 你应该怎么选:不是看算法名字,而是看你的任务 reward 形态(稀疏/密集、噪声/可验证、是否能 group sampling)。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 建议先读(打通基础概念与日志诊断): PG→TRPO→PPO:推导与代码对齐 PG loss 组件详解(PPO-clip / KL / Entropy / 聚合) veRL...
Agentic RL:veRL(verl)训练参数理解(PPO & GRPO、Batch Size、KL & Entropy)
这一篇对应 veRL 视频:“从原理层面理解训练参数,PPO & GRPO,batch size,kl & entropy”(BV1DZL1zNEN2)。 写这篇的目标不是“照着参数表翻译”,而是把你在 verl(veRL)里最常改、最容易踩坑的配置项,和它背后的算法对象一一对齐:你改的到底是“采样分布/有效 batch/更新步长/探索强度/保守性”,还是只是在调一个看起来像超参的数字。 我不会把视频内容当成“圣经”。这类讲解里最容易出错的两件事是: 把经验区间说成普适真理(例如某个指标“应该在 0.1-0.4”)。 把实现细节当成算法本身(例如 KL 的某种近似估计,被误当成 KL 的定义)。 所以本文会更强调“你应该如何用日志闭环验证”,而不是“照着配方抄参数”。一句话:参数之间强耦合,你改一个数字,往往同时改了“有效学习率、更新步长、数据复用程度和探索强度”。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 延伸阅读(更偏算法本体而不是参数): veRL 核心算法:GRPO / RLOO...
Agentic RL:RLVR 的边界(Base vs RL、pass@k、PPL 与 vLLM 评测细节)
这一篇对应视频 07:“limits of RLVR,base vs. RL, pass@k, ppl 基于 vLLM 计算细节以及采样效率”(BV1pWSvBtEAk)。 我把它拆成三条主线: Base vs RL 的“能力”到底在对比什么:RLVR 更像分布削尖(distribution sharpening)还是能力外推(capability uplift)? 为什么一定要看 pass@k 而不只看 pass@1:以及怎么低方差地估算整条 pass@k 曲线。 怎么用 vLLM 可靠地算 PPL / entropy(评测细节):不踩坑地得到能解释现象的指标。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 配套资料(你本地已有): 视频 07:BV1pWSvBtEAk https://www.bilibili.com/video/BV1pWSvBtEAk/ 代码/笔记仓库(对应你本地下载的...
Agentic RL:DeepSeekMath-v2 自我验证(Verifier & Meta-Verifier)
这一篇对应视频 06:“DeepSeekMath-v2, 自我验证, verifier & meta verifier,验证&微调迭代”(BV1AaSTBEEeS)。 我会把它按“论文精度”的方式拆开讲清楚:为什么 verifier 必须升级成 verifier + meta-verifier,以及如何把“外部验证能力”逐步迁移到 generator(自我验证 / self-verification)上,从而降低 RL4LLM 中最典型的 reward hacking。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 0. 资料对齐(视频 + GitHub) 视频 06:BV1AaSTBEEeS https://www.bilibili.com/video/BV1AaSTBEEeS/ 配套...
Agentic RL:vLLM 参数配置、显存分析与性能调优(max_num_batched_tokens)
这一篇对应视频 05:“vLLM 参数配置、显存分析与性能调优 max_num_batched_tokens”(BV1QnSFBkEZU)。 这期的核心不是“教你把服务跑起来”,而是给你一个可以复用的调参心智模型: vLLM 的显存到底被谁吃掉(权重 / KV cache / peak activation / CUDA Graph / 杂项)。 max_model_len、max_num_seqs、max_num_batched_tokens 之间到底是谁在限制并发与吞吐。 为什么 max_num_batched_tokens 既影响“吞吐”,又会反过来影响“能留给 KV cache 的空间”(因为它参与了 profile 的 peak activation 测量)。 系列导航: Agentic RL:系列导航(PG...
Agentic RL:REINFORCE 4 LLM(Reward 设计与 PG+KL Loss 细节)
这一篇对应视频 04:“REINFORCE 4 LLM,设计 reward,如何维护和计算 PG/KL loss,KL loss 计算细节”(BV1Ya1LB1EDM)。 它的价值不在于“给你一个能把大模型训得多强的框架”,而在于把 RL4LLM 里最容易被 verl/openrlhf/... 这些工程封装遮住的核心逻辑,拆成一个可手写、可调试、可逐行对齐公式的最小闭环: LLM 作为 policy:state/action/trajectory 怎么映射 REINFORCE/PG loss 在 LLM 上怎么落地:联合 logprob 怎么维护 KL penalty 为什么是“语言能力 vs reward-max”的拨杆 KL 计算最容易踩坑在哪里:sum vs mean / fKL vs rKL / mask 与聚合 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 建议阅读顺序(我按“先理解再工程”的顺序排): 02&03:PG→TRPO→PPO + GRPO/On-policy...
Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip)
这一页是 Agentic RL 系列的导航与阅读路线图。定位是:用最少的前置,把你带到“看懂 PPO/PG loss 的公式,能对齐到代码实现,并能读懂训练日志与稳定性问题”。 配套视频与资料: 视频 01(工程组件):BV1KFpczQEkA 视频 02(推导主线):BV12NHJzTEoP 视频 03(PG 补充 / GRPO / 优势标准化 / On-policy):BV18hsFzbEKJ 视频 04(REINFORCE 4 LLM / reward 设计 / PG+KL loss 细节):BV1Ya1LB1EDM 视频 05(vLLM 推理参数 / 显存分析 / max_num_batched_tokens):BV1QnSFBkEZU 视频 06(DeepSeekMath-v2 自我验证 / verifier + meta-verifier / 迭代验证与微调):BV1AaSTBEEeS 视频 07(RLVR 的边界 / Base vs RL / pass@k / PPL / vLLM 评测细节):BV1pWSvBtEAk veRL(verl 框架 /...

