冠县 网站建设有关建筑网站建设方案
2026/4/18 14:26:48 网站建设 项目流程
冠县 网站建设,有关建筑网站建设方案,大宇网络潍坊网站建设,保定 营销型网站建设目录 1 transformer原始架构 2 三个注意力模块的区别和翻译过程中的作用 2.1 编码器中的多头自注意力#xff08;无掩码#xff09; 2.2 解码器中的多头掩码自注意力#xff08;有掩码#xff09; 2.3 解码器中的多头编解码注意力#xff08;无掩码#xff09; 2.4…目录1 transformer原始架构2 三个注意力模块的区别和翻译过程中的作用2.1 编码器中的多头自注意力无掩码2.2 解码器中的多头掩码自注意力有掩码2.3 解码器中的多头编解码注意力无掩码2.4 我的通俗理解abstract:Masked Multi-Head Self-Attention带掩码的多头自注意力Multi-Head Encoder-Decoder Attention多头编码器-解码器注意力1 transformer原始架构然后在Transformer彻底剖析(0): Transformer的Decoder的输入输出都是什么已经写了自回归的问题接下来整理一下这里面三个注意力模块有什么区别以及作用分别是什么。2 三个注意力模块的区别和翻译过程中的作用从前面图中可以看到这三个注意力模块分别是编码器中的多头自注意力模块不带掩码解码器中带掩码的多头自注意力解码器中多头编解码注意力不带掩码2.1 编码器中的多头自注意力无掩码作用完整理解中文句子我爱你的内部关系过程当处理爱这个词时模型能同时看到我和你理解这是一个我→爱→你的关系结构结果创建了包含整个句子语义的信息库就像把这句话的完整含义打包存好关键这里没有掩码所以每个词都能看到句子中所有其他词2.2 解码器中的多头掩码自注意力有掩码作用理解已经生成的英文部分过程假设正在生成第三个词(you)模型只能看到前面已生成的I love看不到未来要生成的内容为什么需要掩码防止模型作弊保证翻译是按顺序一个词一个词生成的比喻就像翻译员用手盖住还没翻译的部分只看已经写下的英文2.3 解码器中的多头编解码注意力无掩码作用连接源语言和目标语言的桥梁过程当决定下一个英文词时模型会先看已生成的I love再对照中文数据库编码器输出发现I love对应了我爱接下来应该关注你关键没有掩码可以查看整个中文句子的编码表示2.4 我的通俗理解编码器相当于解析原文我爱你的中文内部语义信息相当于创建了一个数据库等待后面编解码注意力查询 然后解码器中第一个注意力是相当于理解我现在已经翻译出来的英文原始句子信息这两个目前为止就是相当于一个理解中文全文自身一个相当于理解已经翻译出来的英文自身然后编解码注意力相当于在理解了目前已经翻译出来的英文自身的基础上然后去看看中文里面我接下来该翻译什么了然后就相当于中英文状态结合去翻译其实这就相当于翻译的时候一边看看原文一遍看看已经翻译出来的几个单词综合决定接下来翻译成什么【Encoder】 我 爱 你 ↓ “中文整体语义数据库” 【Decoder 每一步】 1. 看看我已经翻译了什么英文自己 2. 带着这个状态去查中文语义 3. 把中英文信息融合 4. 决定下一个英文词

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询