WPIRONMAN
搜索
首页
分类
项目
项目主页
学术助手
智会助手
Codex Remote PWA
技能集
工地检测
AI中转控制台
友链
本站友链
随机开往
异次元之旅
学术主页
关于
分类
算法刷题
LeetCode 两个变量 - 2025.11.13
代码随想录--动态规划
代码随想录--图论
代码随想录--回溯算法
代码随想录--二叉树
更多 >>
论文笔记
Agentic RL:RLVR 的边界(Base vs RL、pass@k、PPL 与 vLLM 评测细节)
Agentic RL:DeepSeekMath-v2 自我验证(Verifier & Meta-Verifier)
更多 >>
算法解析
Agentic RL:代码优先,理论辅助的实战法
Agentic RL:veRL AgentLoop 全流程与计算细节(Async Rollout、状态机、Tool-Interaction)
Agentic RL:veRL Infra AgentLoop 代码串讲(Multi-turn 推理与 Ray Trainer)
Agentic RL:veRL Infra AgentLoop(AgentLoopManager、Async Rollout 与 Hybrid 推训)
Agentic RL:重新理解 DPO(KL 正则 RL、隐式奖励模型与缺陷)
更多 >>
工程实践
我现在怎么做科研:从文献调研、实验到论文写作
我做了一个学术工作流助手:把选刊、前沿跟踪和 AI 预审串起来
Agentic RL:Tokenizer 编解码非对称性与 Token-in-Token-out(RL 训练崩溃的根因)
Agentic RL:veRL MultiTurn Tool Use 与 Coding Agent SFT(Cold Start for RL)
Agentic RL:veRL FSDP SFT Trainer 补充(Teacher Forcing、Shift Labels/Logits、Loss Mask)
更多 >>
论文精读
监督对比学习
对比学习综述
实例判别学习 - Non-Parametric Instance Discrimination精读
Mamba详解 - 选择性状态空间模型精读
MAE详解 - Masked Autoencoders精读
更多 >>
数据结构与算法
基础知识--排序算法
基础知识--图论
基础知识--回溯算法
基础知识--线性表
基础知识--绪论
更多 >>
手撕代码
手撕 Vision Transformer
基于深度学习的图像分类
更多 >>
学术思考
层级结构 + 分布建模 + 原型演化
深度学习杂谈:残差、MAE与特征维度的本质思考
更多 >>
生活记录
开学三个月小记
更多 >>
强化学习数学原理
强化学习数学原理 - 第10章:Actor-Critic 方法 (Actor-Critic Methods)
强化学习数学原理 - 第9章:策略梯度方法 (Policy Gradient Methods)
强化学习数学原理 - 第8章:值函数近似 (Value Function Approximation)
强化学习数学原理 - 第7章:时序差分方法 (Temporal-Difference Methods)
强化学习数学原理 - 第6章:随机近似 (Stochastic Approximation)
更多 >>
评论
WP
无业游民
文章
77
标签
177
分类
22
Follow Me
公告
学术助手已上线
期刊会议检索、前沿论文浏览和 AI 预审入口已经接进博客。
立即进入
最新文章
我现在怎么做科研:从文献调研、实验到论文写作
2026-04-26
我做了一个学术工作流助手:把选刊、前沿跟踪和 AI 预审串起来
2026-04-18
层级结构 + 分布建模 + 原型演化
2026-04-17
Agentic RL:代码优先,理论辅助的实战法
2026-02-26
分类
学术思考
2
工程实践
7
强化学习
5
科研方法
1
强化学习数学原理
12
手撕代码
2
图像分类
2
数据结构与算法
7
标签
数据结构与算法
二叉树
二叉树遍历
递归
迭代
回溯
剪枝
图论
动态规划
二分查找
双指针
数组
滑动窗口
矩阵规律
前缀和
链表
哈希表
查找
set
map
字符串
KMP
reverse
栈
队列
双端队列
堆
queue
stack
deque
Reward Model
Verifier
Self-Verification
DeepSeekMath
Reasoning
Agentic RL
强化学习
PPO
LLM
RLHF
归档
四月 2026
3
二月 2026
32
十二月 2025
5
十一月 2025
8
九月 2025
2
六月 2025
1
四月 2025
5
三月 2025
6
网站信息
文章数目 :
77
运行时间 :
本站总字数 :
170.5k
最后更新时间 :
总访问量:
加载中...
搜索
数据加载中
从关键词开始检索文章
适合查找算法笔记、强化学习推导、科研工作流和项目入口。
Agentic RL
Deep Research
Codex
强化学习