项目

项目主页
学术助手
智会助手
Codex Remote PWA
技能集
AI知识星系
工地检测
AI中转控制台
WPIRONMAN Chat

友链

本站友链
随机开往
异次元之旅

搜索

项目

项目主页
学术助手
智会助手
Codex Remote PWA
技能集
AI知识星系
工地检测
AI中转控制台
WPIRONMAN Chat

友链

本站友链
随机开往
异次元之旅

标签

数据结构与算法二叉树二叉树遍历递归迭代回溯剪枝图论动态规划二分查找双指针数组滑动窗口矩阵规律前缀和链表哈希表查找 set map 栈队列双端队列堆 queue stack deque 字符串 KMP reverse Reward Model Verifier Self-Verification DeepSeekMath Reasoning Agentic RL 强化学习 PPO LLM RLHF REINFORCE KL Bradley-Terry MLE 概率建模 RLVR Evaluation pass@k Perplexity vLLM veRL verl Tokenizer Token-in-Token-out Agent Loop 推理部署性能优化显存分析 AgentLoop Async Rollout Tool Use Interaction Ray SFT FSDP Teacher Forcing Cross Entropy Loss Mask LR Scheduler 工程实践 Trainer Inference SGLang Multi-turn Coding Agent Cold Start GRPO RLOO REINFORCE++Baseline Batch Size Entropy Policy Gradient TRPO CleanRL Forward KL Reverse KL DPO Preference Optimization BERT Transformer 自然语言处理论文精读视觉表征 LeetCode 刷题记录算法 MAE 自监督学习 Vision Transformer 混合专家系统 Mamba SSM 序列建模对比学习 STL vector string algorithm priority_queue transformer Academic Paper Search 文献检索 MCP Agent Skills PaperRefine 学术写作 Codex Claude Code Deep Research 科研工作流论文写作实验管理 Paper2PPT 学术汇报 PPTX WPIRONMAN Chat AI Agent SOL ENGINE GPT-5.6 Prompt Engineering GNN 图神经网络深度学习图像分类 Resnet Lenet CIFAR10 实例判别无监督学习思考生活随笔研究生生活 Vit 手撕代码学术助手产品思考排序冒泡排序选择排序插入排序快速排序归并排序堆排序优化器 SGD Adam 算法详解损失函数基础理论计算机视觉论文笔记监督学习线性表绪论 Reinforcement Learning Roadmap Introduction Math Probability Gradient Descent Martingale GridWorld Python Bellman Equation Dynamic Programming Algorithm Monte Carlo Model-free Robbins-Monro Bellman Optimality TD Learning Sarsa Q-learning Deep Learning DQN Function Approximation Actor-Critic A2C PyTorch

评论

WP

无业游民

公告

学术助手已上线

期刊会议检索、前沿论文浏览和 AI 预审入口已经接进博客。

最新文章

Paper2PPT：从一篇论文到可编辑、可追溯 PPTX 的证据优先工作流

Paper2PPT：从一篇论文到可编辑、可追溯 PPTX 的证据优先工作流2026-07-18

Academic Paper Search：可复现的多源文献检索工作流

Academic Paper Search：可复现的多源文献检索工作流2026-07-18

PaperRefine：论文润色不只是换同义词，而是让主张回到证据边界

PaperRefine：论文润色不只是换同义词，而是让主张回到证据边界2026-07-18

SOL ENGINE：把 GPT-5.6 提示词优化变成可审计、可回归的工程流程

SOL ENGINE：把 GPT-5.6 提示词优化变成可审计、可回归的工程流程2026-07-18

分类

学术思考2
工程实践12
- 强化学习5
- 科研方法1
强化学习数学原理12
手撕代码2
- 图像分类2
数据结构与算法7

标签

CleanRL 损失函数 transformer 视觉表征 Bellman Optimality 对比学习 Policy Gradient 研究生生活 algorithm Claude Code RLVR SGLang Introduction Function Approximation Ray Evaluation Batch Size 选择排序 Academic Paper Search GRPO Transformer Reinforcement Learning Lenet SSM 字符串 Agent Loop DPO 论文精读堆 PyTorch queue deque Verifier vLLM 产品思考 Entropy RLOO Resnet Sarsa Self-Verification

归档

七月 2026 5
四月 2026 3
二月 2026 32
十二月 2025 5
十一月 2025 8
九月 2025 2
六月 2025 1
四月 2025 5

网站信息

文章数目 :

82

运行时间 :

本站总字数 :

186k

最后更新时间 :

总访问量：

加载中...

©2025 - 2026 By WP

框架 Hexo|主题 Butterfly

搜索

数据加载中

从关键词开始检索文章

适合查找算法笔记、强化学习推导、科研工作流和项目入口。