分类: 算法解析 | WPIRONMAN

分类 - 算法解析

2026

Agentic RL：代码优先，理论辅助的实战法

2026-02-26

Agentic RL：代码优先，理论辅助的实战法

Agentic RL：veRL AgentLoop 全流程与计算细节（Async Rollout、状态机、Tool-Interaction）

2026-02-10

Agentic RL：veRL AgentLoop 全流程与计算细节（Async Rollout、状态机、Tool-Interaction）

Agentic RL：veRL Infra AgentLoop 代码串讲（Multi-turn 推理与 Ray Trainer）

2026-02-10

Agentic RL：veRL Infra AgentLoop 代码串讲（Multi-turn 推理与 Ray Trainer）

Agentic RL：veRL Infra AgentLoop（AgentLoopManager、Async Rollout 与 Hybrid 推训）

2026-02-10

Agentic RL：veRL Infra AgentLoop（AgentLoopManager、Async Rollout 与 Hybrid 推训）

Agentic RL：重新理解 DPO（KL 正则 RL、隐式奖励模型与缺陷）

2026-02-10

Agentic RL：重新理解 DPO（KL 正则 RL、隐式奖励模型与缺陷）

Agentic RL：分布视角理解 SFT 与 RL（Forward/Reverse KL、分布与奖励）

2026-02-10

Agentic RL：分布视角理解 SFT 与 RL（Forward/Reverse KL、分布与奖励）

Agentic RL：Reward Model Insights（Bradley-Terry、MLE 与深度学习）

2026-02-10

Agentic RL：Reward Model Insights（Bradley-Terry、MLE 与深度学习）

Agentic RL：veRL 核心强化学习算法（GRPO、RLOO、REINFORCE++）与 Baseline 设计

2026-02-09

Agentic RL：veRL 核心强化学习算法（GRPO、RLOO、REINFORCE++）与 Baseline 设计

Agentic RL：veRL（verl）训练参数理解（PPO & GRPO、Batch Size、KL & Entropy）

2026-02-09

Agentic RL：veRL（verl）训练参数理解（PPO & GRPO、Batch Size、KL & Entropy）

Agentic RL：REINFORCE 4 LLM（Reward 设计与 PG+KL Loss 细节）

2026-02-09

Agentic RL：REINFORCE 4 LLM（Reward 设计与 PG+KL Loss 细节）

Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）

2026-02-09

Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）

Agentic RL：从 PG 到 TRPO 到 PPO-Clip（推导与代码对齐）

2026-02-09

Agentic RL：从 PG 到 TRPO 到 PPO-Clip（推导与代码对齐）

Agentic RL：PG Loss 组件详解（PPO-clip / Dual-Clip / Entropy / KL / 聚合）

2026-02-09

Agentic RL：PG Loss 组件详解（PPO-clip / Dual-Clip / Entropy / KL / 聚合）

2025

深度学习优化器全家桶：从 SGD 到 AdamW 及未来

2025-12-03

深度学习优化器全家桶：从 SGD 到 AdamW 及未来

深度学习损失函数：从 MSE 到 Focal Loss

2025-12-03

深度学习损失函数：从 MSE 到 Focal Loss

数据加载中

从关键词开始检索文章

适合查找算法笔记、强化学习推导、科研工作流和项目入口。