全部文章 - 75
2026
Agentic RL:代码优先,理论辅助的实战法
Agentic RL:代码优先,理论辅助的实战法
Agentic RL:veRL AgentLoop 全流程与计算细节(Async Rollout、状态机、Tool-Interaction)
Agentic RL:veRL AgentLoop 全流程与计算细节(Async Rollout、状态机、Tool-Interaction)
Agentic RL:veRL Infra AgentLoop 代码串讲(Multi-turn 推理与 Ray Trainer)
Agentic RL:veRL Infra AgentLoop 代码串讲(Multi-turn 推理与 Ray Trainer)
Agentic RL:veRL Infra AgentLoop(AgentLoopManager、Async Rollout 与 Hybrid 推训)
Agentic RL:veRL Infra AgentLoop(AgentLoopManager、Async Rollout 与 Hybrid 推训)
Agentic RL:重新理解 DPO(KL 正则 RL、隐式奖励模型与缺陷)
Agentic RL:重新理解 DPO(KL 正则 RL、隐式奖励模型与缺陷)
Agentic RL:分布视角理解 SFT 与 RL(Forward/Reverse KL、分布与奖励)
Agentic RL:分布视角理解 SFT 与 RL(Forward/Reverse KL、分布与奖励)
Agentic RL:Reward Model Insights(Bradley-Terry、MLE 与深度学习)
Agentic RL:Reward Model Insights(Bradley-Terry、MLE 与深度学习)
Agentic RL:Tokenizer 编解码非对称性与 Token-in-Token-out(RL 训练崩溃的根因)
Agentic RL:Tokenizer 编解码非对称性与 Token-in-Token-out(RL 训练崩溃的根因)
Agentic RL:veRL MultiTurn Tool Use 与 Coding Agent SFT(Cold Start for RL)
Agentic RL:veRL MultiTurn Tool Use 与 Coding Agent SFT(Cold Start for RL)
Agentic RL:veRL FSDP SFT Trainer 补充(Teacher Forcing、Shift Labels/Logits、Loss Mask)
Agentic RL:veRL FSDP SFT Trainer 补充(Teacher Forcing、Shift Labels/Logits、Loss Mask)
Agentic RL:veRL FSDP SFT Trainer(SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler)
Agentic RL:veRL FSDP SFT Trainer(SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler)
Agentic RL:veRL 核心强化学习算法(GRPO、RLOO、REINFORCE++)与 Baseline 设计
Agentic RL:veRL 核心强化学习算法(GRPO、RLOO、REINFORCE++)与 Baseline 设计
Agentic RL:veRL(verl)训练参数理解(PPO & GRPO、Batch Size、KL & Entropy)
Agentic RL:veRL(verl)训练参数理解(PPO & GRPO、Batch Size、KL & Entropy)
Agentic RL:RLVR 的边界(Base vs RL、pass@k、PPL 与 vLLM 评测细节)
Agentic RL:RLVR 的边界(Base vs RL、pass@k、PPL 与 vLLM 评测细节)
Agentic RL:DeepSeekMath-v2 自我验证(Verifier & Meta-Verifier)
Agentic RL:DeepSeekMath-v2 自我验证(Verifier & Meta-Verifier)
Agentic RL:vLLM 参数配置、显存分析与性能调优(max_num_batched_tokens)
Agentic RL:vLLM 参数配置、显存分析与性能调优(max_num_batched_tokens)
Agentic RL:REINFORCE 4 LLM(Reward 设计与 PG+KL Loss 细节)
Agentic RL:REINFORCE 4 LLM(Reward 设计与 PG+KL Loss 细节)
Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip)
Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip)
Agentic RL:从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
Agentic RL:从 PG 到 TRPO 到 PPO-Clip(推导与代码对齐)
Agentic RL:PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)
Agentic RL:PG Loss 组件详解(PPO-clip / Dual-Clip / Entropy / KL / 聚合)