Agentic RL:veRL FSDP SFT Trainer(SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler)
Agentic RL:veRL 核心强化学习算法(GRPO、RLOO、REINFORCE++)与 Baseline 设计
Agentic RL:veRL(verl)训练参数理解(PPO & GRPO、Batch Size、KL & Entropy)
Agentic RL:RLVR 的边界(Base vs RL、pass@k、PPL 与 vLLM 评测细节)
Agentic RL:DeepSeekMath-v2 自我验证(Verifier & Meta-Verifier)
Agentic RL:vLLM 参数配置、显存分析与性能调优(max_num_batched_tokens)
Agentic RL:REINFORCE 4 LLM(Reward 设计与 PG+KL Loss 细节)
Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip)
Agentic RL:从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
Agentic RL:PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)