当前位置: 首页 >
为什么我还是无法理解transformer?
- 人气:
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
推荐资讯
- 2025-06-23腰间盘突出能不能治愈?
- 2025-06-23Rust招人为啥这么难?
- 2025-06-23怎么能让屁股瘦下来啊,我爸妈屁股都不大,我屁股又大又圆润,关键是我矮啊,上半身也不胖?
- 2025-06-23vue + tsx 的开发体验能追得上 react+tsx么?
- 2025-06-23个人博客网站,要坚持多久才会有读者?
- 2025-06-23胡赛武装武器哪里来的?
- 2025-06-23ant-design-vue 社区为什么不维护了?
- 2025-06-23微软宣布全球裁员 6000 人,为 2023 年以来最大规模,为什么此时裁员?会对微软带来哪些影响?
- 2025-06-23江西女生怎么结婚?
- 2025-06-23人工智能相关专业里有什么「坑」吗?
- 2025-06-23都相亲了,女的也不主动找人聊天吗?
- 2025-06-23为什么面对 Adobe 的版权要求下,vposy 大神还能从容不迫?
- 2025-06-23MySQL不香吗,为啥还要Elasticsearch?
- 2025-06-23如何看待湖北一医院婚检查出艾滋医生未告知伴侣致感染,医生被停职?反映出哪些问题?
- 2025-06-23中国核弹头数量什么时候能追上美俄?
- 2025-06-23你在生活中见过哪些「强者从不抱怨环境」的例子?
推荐产品
-
为什么Rust的热度超过Zig?
去年有一段时间对 Rust 特别感兴趣,不过由于时间忙,学习 -
网传《碟中谍 8》亏损可能超 14 亿,是真的吗?这背后的原因是什么?
《碟中谍8》的问题应该是多方共同导致的结果一、7和8分成上下 -
体制内女老师,被关系户欺负,大吼——"不干就给老子滚",我该怎么办?
是党员嘛 直接写***申请书 理由就是某某是某某人的继女,她 -
HTTP/3 解决了什么问题,又引入了什么新问题?
HTTP/3 实际上是 QUIC 协议 + HTTP2。 我
最新资讯