文章
76
标签
174
分类
22
首页
分类
学术助手
工具
工地检测
友链
本站友链
随机开往
异次元之旅
学术主页
关于
WPIRONMAN
搜索
首页
分类
学术助手
工具
工地检测
友链
本站友链
随机开往
异次元之旅
学术主页
关于
分类
算法刷题
LeetCode 两个变量 - 2025.11.13
代码随想录--动态规划
代码随想录--图论
代码随想录--回溯算法
代码随想录--二叉树
更多 >>
论文笔记
Agentic RL:RLVR 的边界(Base vs RL、pass@k、PPL 与 vLLM 评测细节)
Agentic RL:DeepSeekMath-v2 自我验证(Verifier & Meta-Verifier)
更多 >>
算法解析
Agentic RL:代码优先,理论辅助的实战法
Agentic RL:veRL AgentLoop 全流程与计算细节(Async Rollout、状态机、Tool-Interaction)
Agentic RL:veRL Infra AgentLoop 代码串讲(Multi-turn 推理与 Ray Trainer)
Agentic RL:veRL Infra AgentLoop(AgentLoopManager、Async Rollout 与 Hybrid 推训)
Agentic RL:重新理解 DPO(KL 正则 RL、隐式奖励模型与缺陷)
更多 >>
工程实践
我现在怎么做科研:从文献调研、实验到论文写作
Agentic RL:Tokenizer 编解码非对称性与 Token-in-Token-out(RL 训练崩溃的根因)
Agentic RL:veRL MultiTurn Tool Use 与 Coding Agent SFT(Cold Start for RL)
Agentic RL:veRL FSDP SFT Trainer 补充(Teacher Forcing、Shift Labels/Logits、Loss Mask)
Agentic RL:veRL FSDP SFT Trainer(SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler)
更多 >>
论文精读
监督对比学习
对比学习综述
实例判别学习 - Non-Parametric Instance Discrimination精读
Mamba详解 - 选择性状态空间模型精读
MAE详解 - Masked Autoencoders精读
更多 >>
数据结构与算法
基础知识--排序算法
基础知识--图论
基础知识--回溯算法
基础知识--线性表
基础知识--绪论
更多 >>
手撕代码
手撕 Vision Transformer
基于深度学习的图像分类
更多 >>
生活记录
开学三个月小记
更多 >>
学术思考
层级结构 + 分布建模 + 原型演化
深度学习杂谈:残差、MAE与特征维度的本质思考
更多 >>
强化学习数学原理
强化学习数学原理 - 第10章:Actor-Critic 方法 (Actor-Critic Methods)
强化学习数学原理 - 第9章:策略梯度方法 (Policy Gradient Methods)
强化学习数学原理 - 第8章:值函数近似 (Value Function Approximation)
强化学习数学原理 - 第7章:时序差分方法 (Temporal-Difference Methods)
强化学习数学原理 - 第6章:随机近似 (Stochastic Approximation)
更多 >>
评论
WP
无业游民
文章
76
标签
174
分类
22
Follow Me
公告
学术助手已上线
期刊会议检索、前沿论文浏览和 AI 预审入口已经接进博客。
立即进入
最新文章
我现在怎么做科研:从文献调研、实验到论文写作
2026-04-26
层级结构 + 分布建模 + 原型演化
2026-04-17
Agentic RL:代码优先,理论辅助的实战法
2026-02-26
Agentic RL:veRL AgentLoop 全流程与计算细节(Async Rollout、状态机、Tool-Interaction)
2026-02-10
分类
学术思考
2
工程实践
6
强化学习
5
科研方法
1
强化学习数学原理
12
手撕代码
2
图像分类
2
数据结构与算法
7
标签
数据结构与算法
二叉树
二叉树遍历
递归
迭代
回溯
剪枝
图论
动态规划
二分查找
双指针
数组
滑动窗口
矩阵规律
前缀和
链表
哈希表
查找
set
map
字符串
KMP
reverse
栈
队列
双端队列
堆
queue
stack
deque
Reward Model
Verifier
Self-Verification
DeepSeekMath
Reasoning
Agentic RL
强化学习
PPO
LLM
RLHF
归档
四月 2026
2
二月 2026
32
十二月 2025
5
十一月 2025
8
九月 2025
2
六月 2025
1
四月 2025
5
三月 2025
6
网站信息
文章数目 :
76
运行时间 :
本站总字数 :
167.8k
最后更新时间 :
总访问量:
加载中...
搜索
数据加载中