文章
28
标签
58
分类
14
首页
文章
分类
时间轴
友链
本站友链
随机开往
异次元之旅
关于
WPIRONMAN
LLM-文本数据处理
搜索
首页
文章
分类
时间轴
友链
本站友链
随机开往
异次元之旅
关于
LLM-文本数据处理
发表于
2025-05-27
|
LLM
文本数据处理
|
总字数:
18
|
阅读时长:
1分钟
LLM
位置嵌入
绝对位置嵌入和相对位置嵌入
文章作者:
WP
文章链接:
https://wp-a.github.io/2025/05/%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86/
版权声明:
本博客所有文章除特别声明外,均采用
CC BY-NC-SA 4.0
许可协议。转载请注明来源
WPIRONMAN
!
LLM入门
从零构建大模型
赞助
微信
上一篇
MoE
Mixtures of Experts 《Adaptive Mixture of Local Experts》 论文链接:https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf 1991年,由 Hinton和 Jordan提出,这是最早的MoE架构。 核心思想:通过多个独立专家网络处理输入数据不同子集,并由门控网络动态选择专家。每个专家接受相同的输入数据,但通过门控网络的动态分配,专家会专注于处理输入空间的特定区域。 基础架构 如图,一个由专家网络和门控网络组成的系统。每个专家是一个前馈网络,所有专家接收相同的输入,并具有相同数量的输出。门控网络也是一个前馈网络,通常接收与专家网络相同的输入。它的输出是归一化的 $ p_j = \exp(r_j) / \sum_i \exp(r_i) $,其中 $ r_j $是门控网络输出单元 $j$ 接收的总加权输入。选择器(selector)类似于一个多输入单输出的随机开关;开关选择来自专家 $ j $ 的输出的概率为 $p_j$...
下一篇
手撕 Vision Transformer
手撕 Vision...
评论
LLM-文本数据处理
目录
1.
LLM
搜索
数据加载中