分类 | WPIRONMAN

算法刷题

LeetCode 两个变量 - 2025.11.13

代码随想录--动态规划

代码随想录--图论

代码随想录--回溯算法

代码随想录--二叉树

论文笔记

Agentic RL：RLVR 的边界（Base vs RL、pass@k、PPL 与 vLLM 评测细节）

Agentic RL：DeepSeekMath-v2 自我验证（Verifier & Meta-Verifier）

算法解析

Agentic RL：代码优先，理论辅助的实战法

Agentic RL：veRL AgentLoop 全流程与计算细节（Async Rollout、状态机、Tool-Interaction）

Agentic RL：veRL Infra AgentLoop 代码串讲（Multi-turn 推理与 Ray Trainer）

Agentic RL：veRL Infra AgentLoop（AgentLoopManager、Async Rollout 与 Hybrid 推训）

Agentic RL：重新理解 DPO（KL 正则 RL、隐式奖励模型与缺陷）

工程实践

Paper2PPT：从一篇论文到可编辑、可追溯 PPTX 的证据优先工作流

Academic Paper Search：可复现的多源文献检索工作流

PaperRefine：论文润色不只是换同义词，而是让主张回到证据边界

SOL ENGINE：把 GPT-5.6 提示词优化变成可审计、可回归的工程流程

WPIRONMAN Chat 正式上线：产品介绍与使用指南

论文精读

监督对比学习

对比学习综述

实例判别学习 - Non-Parametric Instance Discrimination精读

Mamba详解 - 选择性状态空间模型精读

MAE详解 - Masked Autoencoders精读

数据结构与算法

基础知识--排序算法

基础知识--图论

基础知识--回溯算法

基础知识--线性表

基础知识--绪论

手撕代码

手撕 Vision Transformer

基于深度学习的图像分类

学术思考

层级结构 + 分布建模 + 原型演化

深度学习杂谈：残差、MAE与特征维度的本质思考

生活记录

开学三个月小记

强化学习数学原理

强化学习数学原理 - 第10章：Actor-Critic 方法 (Actor-Critic Methods)

强化学习数学原理 - 第9章：策略梯度方法 (Policy Gradient Methods)

强化学习数学原理 - 第8章：值函数近似 (Value Function Approximation)

强化学习数学原理 - 第7章：时序差分方法 (Temporal-Difference Methods)

强化学习数学原理 - 第6章：随机近似 (Stochastic Approximation)

评论

数据加载中

从关键词开始检索文章

适合查找算法笔记、强化学习推导、科研工作流和项目入口。