分类 | WPIRONMAN

算法刷题

LeetCode 两个变量 - 2025.11.13

代码随想录--动态规划

代码随想录--图论

代码随想录--回溯算法

代码随想录--二叉树

论文笔记

Agentic RL：RLVR 的边界（Base vs RL、pass@k、PPL 与 vLLM 评测细节）

Agentic RL：DeepSeekMath-v2 自我验证（Verifier & Meta-Verifier）

算法解析

Agentic RL：代码优先，理论辅助的实战法

Agentic RL：veRL AgentLoop 全流程与计算细节（Async Rollout、状态机、Tool-Interaction）

Agentic RL：veRL Infra AgentLoop 代码串讲（Multi-turn 推理与 Ray Trainer）

Agentic RL：veRL Infra AgentLoop（AgentLoopManager、Async Rollout 与 Hybrid 推训）

Agentic RL：重新理解 DPO（KL 正则 RL、隐式奖励模型与缺陷）

工程实践

Agentic RL：Tokenizer 编解码非对称性与 Token-in-Token-out（RL 训练崩溃的根因）

Agentic RL：veRL MultiTurn Tool Use 与 Coding Agent SFT（Cold Start for RL）

Agentic RL：veRL FSDP SFT Trainer 补充（Teacher Forcing、Shift Labels/Logits、Loss Mask）

Agentic RL：veRL FSDP SFT Trainer（SFT vs RL、交叉熵损失、Loss Mask、LR Scheduler）

Agentic RL：vLLM 参数配置、显存分析与性能调优（max_num_batched_tokens）

论文精读

监督对比学习

对比学习综述

实例判别学习 - Non-Parametric Instance Discrimination精读

Mamba详解 - 选择性状态空间模型精读

MAE详解 - Masked Autoencoders精读

数据结构与算法

基础知识--排序算法

基础知识--图论

基础知识--回溯算法

基础知识--线性表

基础知识--绪论

手撕代码

手撕 Vision Transformer

基于深度学习的图像分类

生活记录

开学三个月小记

学术思考

深度学习杂谈：残差、MAE与特征维度的本质思考

强化学习数学原理

强化学习数学原理 - 第10章：Actor-Critic 方法 (Actor-Critic Methods)

强化学习数学原理 - 第9章：策略梯度方法 (Policy Gradient Methods)

强化学习数学原理 - 第8章：值函数近似 (Value Function Approximation)

强化学习数学原理 - 第7章：时序差分方法 (Temporal-Difference Methods)

强化学习数学原理 - 第6章：随机近似 (Stochastic Approximation)

评论

数据加载中