2026/4/18 12:18:20
网站建设
项目流程
入驻京东需要自己做网站吗,wordpress 登录 手机版,漳州手工外发加工网,网站空间已过期不是。 BPE 结束后#xff0c;模型拿到的已经是 整数序列#xff08;token id#xff09;#xff0c;下一跳直接就是 nn.Embedding#xff08;即可训练的稠密向量#xff09;#xff0c;根本不会再走 one-hot。流程如下#xff1a;
文本 → BPE 分词 → [token₁, tok…不是。BPE 结束后模型拿到的已经是整数序列token id下一跳直接就是nn.Embedding即可训练的稠密向量根本不会再走 one-hot。流程如下文本 → BPE 分词 → [token₁, token₂, …]token → 查表vocab_size × hidden_dim 的矩阵→ [e₁, e₂, …]后续 Transformer 层在稠密向量上运算。one-hot 只在教学推导里出现维度 vocab_size1 个 1 其余 0用来写公式output one_hot Embedding_matrix实际代码里直接用embedding(idx)查表效率更高、内存更省。