2026/4/18 0:54:42
网站建设
项目流程
企业内部网站建设方案,深圳做网站排名价格,网站改版 影响google 404跳首页,黄埔网站开发原文#xff1a;towardsdatascience.com/group-equivariant-self-attention-19e47f0b786e 在不断发展的神经网络架构动态景观中#xff0c;效率至关重要。为特定任务定制网络需要通过战略性的架构调整来注入先验知识。这不仅仅是参数调整——这是将所需理解嵌入到模型中的过程…原文towardsdatascience.com/group-equivariant-self-attention-19e47f0b786e在不断发展的神经网络架构动态景观中效率至关重要。为特定任务定制网络需要通过战略性的架构调整来注入先验知识。这不仅仅是参数调整——这是将所需理解嵌入到模型中的过程。实现这一目标的一种方法是通过使用几何先验——这正是本文的主题。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9013f7d9580395d4386d4852bf9d9a80.png一张在 90 度旋转下的狗的图片。中间我们看到具有旋转等变的模型的权重表示而右侧的模型没有这种等变。©J. Hatzky前置条件在前一篇文章中我们探讨了视觉中的自注意力操作。现在让我们在此基础上构建并通过使用几何深度学习的最新进展来扩展它。如果你还不熟悉几何深度学习迈克尔·布朗斯坦创建了一个优秀的入门系列。群等变模型的好处等变模型可以将搜索空间定制为当前任务并减少模型学习虚假关系的概率。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/449467fb18782be2a530757ba928f5a4.png在 90 度旋转下的癌细胞。中间我们看到具有旋转等变的模型的权重表示而右侧的模型没有这种等变。©J. Hatzky以这个癌细胞为例看看。如果我们假设模型具有旋转等变那么模型对这个细胞图像的表示只会随着图像旋转但保持其结构完整。而如果没有这种等变模型的表示几乎会任意变化因此在一个方向上看起来像癌细胞当旋转时可能会看起来完全不同。显然这并不是我们想要用于检测特定细胞类型的任务。我们真正想要的是一个理解这种旋转对称性的等变模型因此不受旋转或其他输入变换的影响。几何模型的蓝图当将几何先验集成到深度学习架构中时一种常见的方法涉及一系列系统的步骤。最初网络的层被扩展以与目标几何群如旋转对齐从而产生我们所说的G-等变层。这种适应确保网络捕捉并尊重数据中固有的特定几何特征。在整个过程中可以战略性地应用局部池化技术来管理和简化网络复杂性尤其是如果减小尺寸被认为是有益的。引入池化操作有助于关注关键特征同时保持网络识别几何细微差别的能力。最终该架构旨在在所选几何群的变换下表现出不变性。为了实现这一点在最后执行对群维度的全局池化操作。这一步骤确保网络学习到的表示在应用几何变换时保持一致和可靠。实质上这种方法围绕调整网络的内部工作方式以适应不同的几何特性采用池化策略进行复杂性控制最终形成一个在指定几何群内变换时保持不变性的网络。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9a0b6de24f32d4d15eebe96774af1f49.png几何深度学习架构的一个示例。结合了等变层并在其中可能进行局部池化最后进行全局池化以在群作用下创建不变性。©J. Hatzky群等变卷积神经网络G-CNNsG-CNNs 首次亮相于 2016 年标志着神经网络架构领域的一项重大进步。其理念是在 CNN 的卷积核上应用群变换。基本上包括两个操作称为提升和群卷积。提升卷积的概念涉及取一个图像并将其提升到所选群的维度。让我们用一个具有 90 度旋转的群作为例子来进一步分解。这是如何工作的想象我们的群由旋转组成我们希望将核提升到这个群的维度。我们通过将核旋转四次来实现这一点对应于 90 度旋转群中的四个不同方向。随后我们将这四个提升核应用到同一图像上。结果是四个变换后的图像每个对应于核的一个旋转版本。这个过程有效地捕捉了卷积操作中组变换的本质使网络能够理解和从输入数据的不同方向中学习。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/83f041c31b6034b5bb94dd8a543e5e65.png提升卷积。我们创建提升版本的卷积核。在这种情况下是在 90 度旋转群 C4 下的旋转。然后我们用每个核对输入图像进行卷积。©J. Hatzky在进行提升卷积之后我们现在有一组四个卷积图像。如果我们想应用进一步的卷积我们必须对所有的四个变换进行操作而不仅仅是单个输入图像。为此我们使用分组卷积层。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4728c1fcce59415e04fd4bea811d0096.png分组卷积。类似于提升卷积我们在组上创建位置索引。进一步地我们取和以保持维度。©J. Hatzky如您所见我们也在组维度上取和以保持维度恒定。最后我们进行全局池化使我们的卷积操作在组作用下保持不变。分组等变 Transformer在考虑了分组等变卷积的概念后我们现在可以将相同的直觉转移到构建分组等变自注意力。截至此时许多深度学习架构已经有了分组等变的对应物。最近这种情况也适用于 Transformer 模型更具体地说是 Transformer 模型的引擎——自注意力操作。在其初始形式中自注意力由于缺乏位置信息表现出排列等变性。用简单的话说输入的排列会导致输出的相应排列。这种内在属性非常灵活可以轻松地适应旋转、平移、翻转和其他保持对称性的动作作为排列的特殊情况。然而这种广泛的等变性虽然强大但对于许多任务来说往往过于通用尤其是在位置感细腻时。为了解决这一限制将位置信息引入模型已成为标准做法。有趣的是当引入绝对位置信息时模型会放弃其等变性属性。这是因为每个位置上的每个输入都变得独特破坏了所需的对称性。相反利用相对位置可以恢复平移等变性因为当位置移动时相对方向保持不变。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cb94cb93eda0e92971f512322ad851e0.png关于位置编码形式的等变性层次结构的部分有序群。©J. Hatzky因此我们想要的是封装某些对称群如旋转的东西但不要太通用这被称为独特的群等变性。你可以猜到我们可以通过使用群作用以特定方式改变位置信息来实现这一点。结果如果我们把绝对位置编码看作是一个 2D 网格那么与 G-CNNs 有很多类比。事实上我们可以将相同的群变换应用于这个位置的 2D 网格就像我们应用于 2D 卷积核一样。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a6e2d85c6328536647e7c783f70eb03e.png具有绝对位置嵌入的提升自注意力。类似于 G-CNNs我们将群作用应用于自注意力位置嵌入的索引以获得提升变换。©J. Hatzky与 G-CNNs 中创建内核的作用版本不同我们现在为绝对位置索引的 2D 网格创建作用版本。我们称此操作为提升自注意力。然后我们应用四个单独的多头自注意力操作这为我们提供了相同输入图像的四个独特表示。现在你可以希望看到这些步骤与分组卷积的相似之处。我们以类似的方式继续进行。我们定义了一个我们称之为分组自注意力的操作它直接作用于我们索引的提升版本。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d037a9ff024cf407e859a262bd954387.png具有绝对位置嵌入的分组自注意力。类似于 G-CNNs我们将群作用应用于自注意力位置嵌入的索引以获得提升变换。©J. Hatzky注意到分组自注意力导致内核旋转 90 度并在群轴上发生循环排列。在多个这样的分组自注意力层之后我们进行类似于平均池化的池化操作从而在群作用下创建不变性。我们现在构建一个对输入 90 度旋转不变的自我注意力操作。太棒了现在让我们在提升自注意力和分组自注意力的背景下考察等变性属性。为了评估这一点我们将一张图像及其 90 度旋转后的对应图像输入到我们的网络中观察模型表示在提升和分组自注意力操作后的演变。通过审查模型表示的变化我们获得了对等变性设计的有效性的见解。具体来说我们试图了解网络对输入变化的响应特别是旋转方面的变化。这种比较分析为模型在输入数据变换下保持一致和可解释不变表示的能力提供了细微的视角。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cbbe6f98566214408a1cb326a782c383.png提升和分组自注意力层的特征表示行为。输入旋转导致网络中间特征表示发生旋转和循环排列。©J. Hatzky显著的是我们观察到网络的表示在 90 度旋转和循环排列下保持不变。这种模型响应的稳健一致性强调了所实现的等变性证实了其在群作用下保持基本特征和模式的能力。结论所获得的见解突显了分组等变先验的潜在价值。在特定变换中维持一致表示的能力表明了一条提高整体网络性能和泛化的宝贵途径。将群等变性集成到网络架构中提供了提高稳定性和泛化的前景使其成为在数据中可以利用几何模式的应用中的一种有吸引力的方法。