WPIRONMAN

Agentic RL：Tokenizer 编解码非对称性与 Token-in-Token-out（RL 训练崩溃的根因）

发表于2026-02-10|工程实践强化学习|Agentic RL•强化学习•veRL•verl•Tokenizer•Token-in-Token-out•Agent Loop

这篇文章对应视频：【[veRL] tokenizer 编解码的非对称性，RL 训练崩溃到 Agent loop 中的 token in token out】（BV1b2pDzYEY2）。我不会把它写成“视频复述”，而是把它抽象成一个你做 RL4LLM / Agentic RL / Multi-turn Tool Use 一定会遇到的工程定律：在 RL 训练里，token_ids 才是“行为（action）”本体；把它 decode 成文本、再 encode 回去，往往已经不是同一个行为了。一旦你在 rollout 的链路里出现 decode → encode（尤其是 multi-turn），你就可能让 PPO/GRPO 训练变成“在错误分布上算 logprob”，表现为： approx_kl/clipfrac/loss 统计异常 reward curve 不上升，甚至彻底不收敛 multi-turn agent loop 越跑越乱（历史拼接后 token 逐步漂移）系列导航： Agentic RL：系列导航（PG...

Agentic RL：veRL MultiTurn Tool Use 与 Coding Agent SFT（Cold Start for RL）

发表于2026-02-10|工程实践强化学习|Agentic RL•强化学习•veRL•verl•Tool Use•SFT•Multi-turn•Coding Agent•Cold Start

这篇文章对应视频：【[Agentic RL] [VeRL] 08 MultiTurn Tool Use, Coding Agent SFT 训练，Cold Start for RL】（BV19PmwB5ERd）。但我不会把它写成“逐句复盘”的笔记，而是把它抽象成一套你能复用的工程方法论：如果你要做一个 multi-turn tool-use 的 coding agent，并且希望后续能接上 PPO/GRPO/DAPO 这类 RL 训练，你在数据、mask、rollout 结构、reward 形态上要先把哪些坑填平。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）关联阅读（建议顺序）： SFT trainer 主篇：交叉熵 / loss mask / scheduler SFT 补充：teacher forcing / shift / mask 对齐 RL 算法侧：GRPO/RLOO/REINFORCE++ 与 baseline 推理侧：vLLM...

Agentic RL：veRL FSDP SFT Trainer 补充（Teacher Forcing、Shift Labels/Logits、Loss Mask）

发表于2026-02-09|工程实践强化学习|Agentic RL•强化学习•veRL•verl•SFT•FSDP•Teacher Forcing•Cross Entropy•Loss Mask

这篇文章对应视频：“[veRL] fsdp sft trainer 补充，teacher forcing、shift labels shift logits、loss mask”（BV1eWjtzbEdP）。它是上一篇 SFT trainer 文章的“补充篇”，专门把三个最容易写错、但一错就会把模型训歪的细节讲透： Teacher forcing：SFT 到底在“喂什么”给模型，喂错会导致什么偏差。 Shift labels / shift logits：为什么 causal LM 的 CE loss 天生存在“错一位”，实现里你必须显式对齐。 Loss mask：multi-turn + tool-use 数据里，你到底要监督哪些 token；mask 在 shift 前后怎么对齐。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）关联阅读（建议先看主篇再看补充）： veRL：FSDP SFT Trainer 主篇（交叉熵 / loss mask /...

Agentic RL：veRL FSDP SFT Trainer（SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler）

发表于2026-02-09|工程实践强化学习|Agentic RL•强化学习•veRL•verl•SFT•FSDP•Cross Entropy•Loss Mask•LR Scheduler•工程实践

这篇文章对应视频：“[veRL] FSDP SFT trainer，SFT vs. RL，交叉熵损失 | loss mask | learning rate scheduler”（BV1CkJgzAEAG）。补充篇（更聚焦 teacher forcing / shift labels-logits / loss mask 对齐）： veRL：FSDP SFT Trainer 补充（Teacher Forcing / Shift / Loss Mask）进一步把 SFT 接到 tool-use agent 的 cold start（MultiTurn Tool Use / Coding Agent）： veRL：MultiTurn Tool Use / Coding Agent SFT（Cold Start for RL）但我会把它写成一份“可落地的工程读物”，而不是视频逐句复刻。你看完应该能回答这些问题：为什么做 agentic RL / RLHF 之前，SFT 反而是你最不该糊弄的一步？ causal LM...

Agentic RL：veRL 核心强化学习算法（GRPO、RLOO、REINFORCE++）与 Baseline 设计

发表于2026-02-09|算法解析强化学习|Agentic RL•强化学习•RLHF•RLVR•veRL•verl•GRPO•RLOO•REINFORCE++•Baseline

这篇文章对应视频：“[veRL] 核心强化学习算法，GRPO、RLOO、REINFORCE++、REINFORCE++ baseline”（BV1d4Yvz4EXA）。但我不会把它写成“视频逐句笔记”，而是把 veRL 里这些算法放到同一个坐标系里讲清楚：它们本质上都在解同一个问题：不用训练 critic，也能把 outcome reward 变成稳定的更新信号。它们真正的差异，主要集中在：baseline 怎么选、advantage 怎么归一、KL 怎么放。你应该怎么选：不是看算法名字，而是看你的任务 reward 形态（稀疏/密集、噪声/可验证、是否能 group sampling）。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）建议先读（打通基础概念与日志诊断）： PG→TRPO→PPO：推导与代码对齐 PG loss 组件详解（PPO-clip / KL / Entropy / 聚合） veRL...

Agentic RL：veRL（verl）训练参数理解（PPO & GRPO、Batch Size、KL & Entropy）

发表于2026-02-09|算法解析强化学习工程实践|Agentic RL•强化学习•PPO•KL•veRL•verl•GRPO•Batch Size•Entropy

这一篇对应 veRL 视频：“从原理层面理解训练参数，PPO & GRPO，batch size，kl & entropy”（BV1DZL1zNEN2）。写这篇的目标不是“照着参数表翻译”，而是把你在 verl（veRL）里最常改、最容易踩坑的配置项，和它背后的算法对象一一对齐：你改的到底是“采样分布/有效 batch/更新步长/探索强度/保守性”，还是只是在调一个看起来像超参的数字。我不会把视频内容当成“圣经”。这类讲解里最容易出错的两件事是：把经验区间说成普适真理（例如某个指标“应该在 0.1-0.4”）。把实现细节当成算法本身（例如 KL 的某种近似估计，被误当成 KL 的定义）。所以本文会更强调“你应该如何用日志闭环验证”，而不是“照着配方抄参数”。一句话：参数之间强耦合，你改一个数字，往往同时改了“有效学习率、更新步长、数据复用程度和探索强度”。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）延伸阅读（更偏算法本体而不是参数）： veRL 核心算法：GRPO / RLOO...

Agentic RL：RLVR 的边界（Base vs RL、pass@k、PPL 与 vLLM 评测细节）

发表于2026-02-09|论文笔记强化学习|Reasoning•Agentic RL•强化学习•RLVR•Evaluation•pass@k•Perplexity•vLLM

这一篇对应视频 07：“limits of RLVR，base vs. RL, pass@k, ppl 基于 vLLM 计算细节以及采样效率”（BV1pWSvBtEAk）。我把它拆成三条主线： Base vs RL 的“能力”到底在对比什么：RLVR 更像分布削尖（distribution sharpening）还是能力外推（capability uplift）？为什么一定要看 pass@k 而不只看 pass@1：以及怎么低方差地估算整条 pass@k 曲线。怎么用 vLLM 可靠地算 PPL / entropy（评测细节）：不踩坑地得到能解释现象的指标。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）配套资料（你本地已有）：视频 07：BV1pWSvBtEAk https://www.bilibili.com/video/BV1pWSvBtEAk/ 代码/笔记仓库（对应你本地下载的...

Agentic RL：DeepSeekMath-v2 自我验证（Verifier & Meta-Verifier）

发表于2026-02-09|论文笔记强化学习|Reward Model•Verifier•Self-Verification•DeepSeekMath•Reasoning•Agentic RL

这一篇对应视频 06：“DeepSeekMath-v2, 自我验证, verifier & meta verifier，验证&微调迭代”（BV1AaSTBEEeS）。我会把它按“论文精度”的方式拆开讲清楚：为什么 verifier 必须升级成 verifier + meta-verifier，以及如何把“外部验证能力”逐步迁移到 generator（自我验证 / self-verification）上，从而降低 RL4LLM 中最典型的 reward hacking。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip） 0. 资料对齐（视频 + GitHub）视频 06：BV1AaSTBEEeS https://www.bilibili.com/video/BV1AaSTBEEeS/ 配套...

Agentic RL：vLLM 参数配置、显存分析与性能调优（max_num_batched_tokens）

发表于2026-02-09|工程实践强化学习|Agentic RL•vLLM•推理部署•性能优化•显存分析

这一篇对应视频 05：“vLLM 参数配置、显存分析与性能调优 max_num_batched_tokens”（BV1QnSFBkEZU）。这期的核心不是“教你把服务跑起来”，而是给你一个可以复用的调参心智模型： vLLM 的显存到底被谁吃掉（权重 / KV cache / peak activation / CUDA Graph / 杂项）。 max_model_len、max_num_seqs、max_num_batched_tokens 之间到底是谁在限制并发与吞吐。为什么 max_num_batched_tokens 既影响“吞吐”，又会反过来影响“能留给 KV cache 的空间”（因为它参与了 profile 的 peak activation 测量）。系列导航： Agentic RL：系列导航（PG...

Agentic RL：REINFORCE 4 LLM（Reward 设计与 PG+KL Loss 细节）

发表于2026-02-09|算法解析强化学习|Agentic RL•强化学习•LLM•RLHF•REINFORCE•KL

这一篇对应视频 04：“REINFORCE 4 LLM，设计 reward，如何维护和计算 PG/KL loss，KL loss 计算细节”（BV1Ya1LB1EDM）。它的价值不在于“给你一个能把大模型训得多强的框架”，而在于把 RL4LLM 里最容易被 verl/openrlhf/... 这些工程封装遮住的核心逻辑，拆成一个可手写、可调试、可逐行对齐公式的最小闭环： LLM 作为 policy：state/action/trajectory 怎么映射 REINFORCE/PG loss 在 LLM 上怎么落地：联合 logprob 怎么维护 KL penalty 为什么是“语言能力 vs reward-max”的拨杆 KL 计算最容易踩坑在哪里：sum vs mean / fKL vs rKL / mask 与聚合系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）建议阅读顺序（我按“先理解再工程”的顺序排）： 02&03：PG→TRPO→PPO + GRPO/On-policy...