归档 | WPIRONMAN

全部文章 - 82

2026

Agentic RL：veRL（verl）训练参数理解（PPO & GRPO、Batch Size、KL & Entropy）

2026-02-09

Agentic RL：veRL（verl）训练参数理解（PPO & GRPO、Batch Size、KL & Entropy）

Agentic RL：RLVR 的边界（Base vs RL、pass@k、PPL 与 vLLM 评测细节）

2026-02-09

Agentic RL：RLVR 的边界（Base vs RL、pass@k、PPL 与 vLLM 评测细节）

Agentic RL：DeepSeekMath-v2 自我验证（Verifier & Meta-Verifier）

2026-02-09

Agentic RL：DeepSeekMath-v2 自我验证（Verifier & Meta-Verifier）

Agentic RL：vLLM 参数配置、显存分析与性能调优（max_num_batched_tokens）

2026-02-09

Agentic RL：vLLM 参数配置、显存分析与性能调优（max_num_batched_tokens）

Agentic RL：REINFORCE 4 LLM（Reward 设计与 PG+KL Loss 细节）

2026-02-09

Agentic RL：REINFORCE 4 LLM（Reward 设计与 PG+KL Loss 细节）

Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）

2026-02-09

Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）

Agentic RL：从 PG 到 TRPO 到 PPO-Clip（推导与代码对齐）

2026-02-09

Agentic RL：从 PG 到 TRPO 到 PPO-Clip（推导与代码对齐）

Agentic RL：PG Loss 组件详解（PPO-clip / Dual-Clip / Entropy / KL / 聚合）

2026-02-09

Agentic RL：PG Loss 组件详解（PPO-clip / Dual-Clip / Entropy / KL / 聚合）

强化学习数学原理 - 第10章：Actor-Critic 方法 (Actor-Critic Methods)

2026-02-09

强化学习数学原理 - 第10章：Actor-Critic 方法 (Actor-Critic Methods)

强化学习数学原理 - 第9章：策略梯度方法 (Policy Gradient Methods)

2026-02-09

强化学习数学原理 - 第9章：策略梯度方法 (Policy Gradient Methods)

强化学习数学原理 - 第8章：值函数近似 (Value Function Approximation)

2026-02-09

强化学习数学原理 - 第8章：值函数近似 (Value Function Approximation)

强化学习数学原理 - 第7章：时序差分方法 (Temporal-Difference Methods)

2026-02-09

强化学习数学原理 - 第7章：时序差分方法 (Temporal-Difference Methods)

强化学习数学原理 - 第6章：随机近似 (Stochastic Approximation)

2026-02-09

强化学习数学原理 - 第6章：随机近似 (Stochastic Approximation)

强化学习数学原理 - 第5章：蒙特卡洛方法 (Monte Carlo Methods)

2026-02-09

强化学习数学原理 - 第5章：蒙特卡洛方法 (Monte Carlo Methods)

强化学习数学原理 - 第4章：值迭代与策略迭代 (Value & Policy Iteration)

2026-02-09

强化学习数学原理 - 第4章：值迭代与策略迭代 (Value & Policy Iteration)

强化学习数学原理 - 第3章：最优状态值与贝尔曼最优方程 (Bellman Optimality)

2026-02-09

强化学习数学原理 - 第3章：最优状态值与贝尔曼最优方程 (Bellman Optimality)

强化学习数学原理 - 第2章：贝尔曼方程 (Bellman Equation)

2026-02-09

强化学习数学原理 - 第2章：贝尔曼方程 (Bellman Equation)

强化学习数学原理 - 第1章：基本概念 (Basic Concepts)

2026-02-09

强化学习数学原理 - 第1章：基本概念 (Basic Concepts)

强化学习数学原理 - 必备数学基础 (Mathematical Preliminaries)

2026-02-09

强化学习数学原理 - 必备数学基础 (Mathematical Preliminaries)

强化学习数学原理 - 序章：一张图看懂强化学习 (Course Introduction)

2026-02-09

强化学习数学原理 - 序章：一张图看懂强化学习 (Course Introduction)

数据加载中

从关键词开始检索文章

适合查找算法笔记、强化学习推导、科研工作流和项目入口。