归档 | WPIRONMAN

全部文章 - 75

2026

Agentic RL：代码优先，理论辅助的实战法

2026-02-26

Agentic RL：代码优先，理论辅助的实战法

Agentic RL：veRL AgentLoop 全流程与计算细节（Async Rollout、状态机、Tool-Interaction）

2026-02-10

Agentic RL：veRL AgentLoop 全流程与计算细节（Async Rollout、状态机、Tool-Interaction）

Agentic RL：veRL Infra AgentLoop 代码串讲（Multi-turn 推理与 Ray Trainer）

2026-02-10

Agentic RL：veRL Infra AgentLoop 代码串讲（Multi-turn 推理与 Ray Trainer）

Agentic RL：veRL Infra AgentLoop（AgentLoopManager、Async Rollout 与 Hybrid 推训）

2026-02-10

Agentic RL：veRL Infra AgentLoop（AgentLoopManager、Async Rollout 与 Hybrid 推训）

Agentic RL：重新理解 DPO（KL 正则 RL、隐式奖励模型与缺陷）

2026-02-10

Agentic RL：重新理解 DPO（KL 正则 RL、隐式奖励模型与缺陷）

Agentic RL：分布视角理解 SFT 与 RL（Forward/Reverse KL、分布与奖励）

2026-02-10

Agentic RL：分布视角理解 SFT 与 RL（Forward/Reverse KL、分布与奖励）

Agentic RL：Reward Model Insights（Bradley-Terry、MLE 与深度学习）

2026-02-10

Agentic RL：Reward Model Insights（Bradley-Terry、MLE 与深度学习）

Agentic RL：Tokenizer 编解码非对称性与 Token-in-Token-out（RL 训练崩溃的根因）

2026-02-10

Agentic RL：Tokenizer 编解码非对称性与 Token-in-Token-out（RL 训练崩溃的根因）

Agentic RL：veRL MultiTurn Tool Use 与 Coding Agent SFT（Cold Start for RL）

2026-02-10

Agentic RL：veRL MultiTurn Tool Use 与 Coding Agent SFT（Cold Start for RL）

Agentic RL：veRL FSDP SFT Trainer 补充（Teacher Forcing、Shift Labels/Logits、Loss Mask）

2026-02-09

Agentic RL：veRL FSDP SFT Trainer 补充（Teacher Forcing、Shift Labels/Logits、Loss Mask）

Agentic RL：veRL FSDP SFT Trainer（SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler）

2026-02-09

Agentic RL：veRL FSDP SFT Trainer（SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler）

Agentic RL：veRL 核心强化学习算法（GRPO、RLOO、REINFORCE++）与 Baseline 设计

2026-02-09

Agentic RL：veRL 核心强化学习算法（GRPO、RLOO、REINFORCE++）与 Baseline 设计

Agentic RL：veRL（verl）训练参数理解（PPO & GRPO、Batch Size、KL & Entropy）

2026-02-09

Agentic RL：veRL（verl）训练参数理解（PPO & GRPO、Batch Size、KL & Entropy）

Agentic RL：RLVR 的边界（Base vs RL、pass@k、PPL 与 vLLM 评测细节）

2026-02-09

Agentic RL：RLVR 的边界（Base vs RL、pass@k、PPL 与 vLLM 评测细节）

Agentic RL：DeepSeekMath-v2 自我验证（Verifier & Meta-Verifier）

2026-02-09

Agentic RL：DeepSeekMath-v2 自我验证（Verifier & Meta-Verifier）

Agentic RL：vLLM 参数配置、显存分析与性能调优（max_num_batched_tokens）

2026-02-09

Agentic RL：vLLM 参数配置、显存分析与性能调优（max_num_batched_tokens）

Agentic RL：REINFORCE 4 LLM（Reward 设计与 PG+KL Loss 细节）

2026-02-09

Agentic RL：REINFORCE 4 LLM（Reward 设计与 PG+KL Loss 细节）

Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）

2026-02-09

Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）

Agentic RL：从 PG 到 TRPO 到 PPO-Clip（推导与代码对齐）

2026-02-09

Agentic RL：从 PG 到 TRPO 到 PPO-Clip（推导与代码对齐）

Agentic RL：PG Loss 组件详解（PPO-clip / Dual-Clip / Entropy / KL / 聚合）

2026-02-09

Agentic RL：PG Loss 组件详解（PPO-clip / Dual-Clip / Entropy / KL / 聚合）

数据加载中