陕西网渭南站深圳网站建设开发-黔南布依族苗族自治州网站建设公司-Seo优化

陕西网渭南站深圳网站建设开发

2026/6/20 1:19:45 网站建设项目流程

陕西网渭南站,深圳网站建设开发,深圳网站建设服务中心,家装网站建设多少钱一、小白先懂#xff1a;自注意力是怎么“打分”的#xff1f; 自注意力的核心#xff0c;是给每个词#xff08;Token#xff09;计算和其他词的匹配度分数#xff0c;步骤就3步#xff1a; 生成3个向量#xff1a;给每个词生成 Query#xff08;查询向量#xff0c…一、小白先懂自注意力是怎么“打分”的自注意力的核心是给每个词Token计算和其他词的匹配度分数步骤就3步生成3个向量给每个词生成 Query查询向量好比“我要找什么”、Key键向量好比“我有什么”、Value值向量好比“我要输出的内容”。算匹配分数用 Query 和 Key 的点积计算两个词的相似度公式就是分数Q×KT\text{分数} Q \times K^T分数Q×KTKTK^TKT是 Key 的转置简单理解就是为了让矩阵能相乘分数归一化用 softmax 把分数变成 0~1 之间的权重权重越高说明两个词关联越强最后用权重乘以 Value 得到结果。二、问题来了直接算分数会“出bug”如果不除以dk\sqrt{d_k}dk会遇到两个大麻烦我们用比喻讲明白1. 第一个麻烦dkd_kdk越大分数值越“离谱”dkd_kdk是 Query 和 Key 的维度比如 BERT 里dk64d_k64dk64。我们可以把 Q 和 K 的每个维度值想象成独立的随机数均值0方差1。两个向量的点积就是把对应维度的值相乘再相加Q⋅Kq1k1q2k2...qdkkdkQ \cdot K q_1k_1 q_2k_2 ... q_{d_k}k_{d_k}Q⋅Kq1k1q2k2...qdkkdk根据统计学知识独立随机变量相加方差会累加。单个qikiq_ik_iqiki的方差是1×111 \times 1 11×11dkd_kdk个加起来总方差就是dkd_kdk标准差就是dk\sqrt{d_k}dk举个例子当dk64d_k64dk64时点积的标准差是 8 → 分数值可能会跑到±几十当dk1024d_k1024dk1024时标准差是 32 → 分数值可能会跑到±几百2. 第二个麻烦分数太大会让 softmax “罢工”softmax 函数的特点是输入值越大输出越极端。比如有两个分数10和5经过 softmax 后softmax([10,5])[e10e10e5,e5e10e5]≈[0.993,0.007]softmax([10,5]) [\frac{e^{10}}{e^{10}e^5}, \frac{e^5}{e^{10}e^5}] ≈ [0.993, 0.007]softmax([10,5])[e10e5e10,e10e5e5]≈[0.993,0.007]几乎所有权重都集中在最大的分数上其他分数的权重接近 0。更要命的是极端的输入会导致 softmax 的梯度消失。softmax 的梯度和输入值的大小成反比输入值越大梯度越接近 0 → 模型训练时学不到东西相当于“罢工”了。三、除以dk\sqrt{d_k}dk的“魔法”给分数“降温”这个操作的核心目的就是把点积的方差归一化到 1让分数值的范围变得合理。因为点积的方差是dkd_kdk标准差是dk\sqrt{d_k}dk所以除以dk\sqrt{d_k}dk后归一化分数Q×KTdk\text{归一化分数} \frac{Q \times K^T}{\sqrt{d_k}}归一化分数dkQ×KT新的方差 dkdk1\frac{d_k}{d_k} 1dkdk1新的标准差 1 → 分数值会稳定在±几的范围还是上面的例子分数10和5除以 8dk64d_k64dk64后变成1.25和0.625再经过 softmaxsoftmax([1.25,0.625])≈[0.65,0.35]softmax([1.25, 0.625]) ≈ [0.65, 0.35]softmax([1.25,0.625])≈[0.65,0.35]权重分布更合理既突出了重要的词又不会完全忽略其他词同时梯度也能正常传递模型就能顺利学习了。四、总结小白一句话总结除以dk\sqrt{d_k}dk是为了防止点积分数太大避免 softmax 输出极端值导致梯度消失让模型能正常训练。技术一句话总结自注意力中Q⋅KTQ \cdot K^TQ⋅KT的方差与dkd_kdk成正比除以dk\sqrt{d_k}dk可将方差归一化到 1保证 softmax 输出的权重分布合理且梯度稳定。完整自注意力公式Attention(Q,K,V)softmax(QKTdk)V\text{Attention}(Q,K,V) \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) VAttention(Q,K,V)softmax(dkQKT)V

标签：网站建设企业官网项目流程 UI设计前端开发

您可能感兴趣的其他内容

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

太仓市建设招标网站淮阳住房和城乡建设局网站

微信wap网站用u盘做网站

建设网站费用多少钱自己制作网址收款

宁波网站优化方法东营网站建设方案

vs2010做网站前台c做项目的网站

电商网站的成本宣传片制作企业

文章分类

标签云

相关文章

南宁网站推广哪家好网站开发都用php

jsp网站开发的环境配置石家庄装修公司排名

企业网站及公众号建设方案企业网站建立平台

需要专业的网站建设服务？