2026/4/17 22:06:14
网站建设
项目流程
公司网站制作应该注意些什么,知名响应式网站企业,想建设网站,免费网上商城摘要
https://arxiv.org/pdf/2509.23316 目标检测在封闭集环境下取得了显著进展#xff0c;但在实际部署中仍面临两个挑战#xff1a;对未见类别的泛化能力差#xff0c;以及在恶劣条件下的鲁棒性不足。先前的研究分别探索了这些问题#xff1a;可见光-红外检测提高了鲁棒…摘要https://arxiv.org/pdf/2509.23316目标检测在封闭集环境下取得了显著进展但在实际部署中仍面临两个挑战对未见类别的泛化能力差以及在恶劣条件下的鲁棒性不足。先前的研究分别探索了这些问题可见光-红外检测提高了鲁棒性但缺乏泛化能力而开放世界检测则利用视觉-语言对齐策略实现类别多样性但在极端环境下表现不佳。这种权衡使得鲁棒性和多样性难以同时实现。为缓解这些问题我们提出了C3-OWD一个统一两者优势的课程跨模态对比学习框架。第一阶段通过RGBT数据预训练增强鲁棒性第二阶段通过视觉-语言对齐提高泛化能力。为防止两个阶段之间的灾难性遗忘我们引入了指数移动平均(EMA)机制该机制理论上保证了前期性能的保留具有有界的参数滞后和函数一致性。在FLIR、OV-COCO和OV-LVIS上的实验表明了我们方法的有效性C3-OWD在FLIR上达到80.1 AP50 _{50}50在OV-COCO上达到48.6 AP50 _{50}50Novel在OV-LVIS上达到35.7 mAPr _rr在鲁棒性和多样性评估中均建立了具有竞争力的性能。代码地址https://github.com/justin-herry/C3-OWD.git。引言目标检测(Zong, Song, and Liu 2023; Zhu et al. 2020; Zhao et al. 2023; Lv et al. 2024)是计算机视觉中的一项基础任务在封闭集环境下已取得显著进展其中模型在固定类别集上进行训练和评估。尽管在标准基准测试中效率高、精度高传统检测器在实际部署时面临两个关键挑战• 对未见类别的泛化能力有限• 在恶劣环境条件下如图1所示例如低照度、雾等鲁棒性不足。为解决这些问题最近两个研究方向受到关注。一方面可见光-红外目标检测(RGBT-OD)(Shen et al. 2024a; Devaguptapu et al. 2019; Medeiros et al. 2024; Lee, Park, and Park 2024)引入了互补的热成像线索显著提高了在极端条件下的鲁棒性。然而RGBT模型仍局限于封闭集类别因此泛化能力有限。另一方面开放世界检测(OWD)(Gu et al. 2021a; Zang et al. 2022; Zhong et al. 2022; Zang et al. 2022; Wu et al. 2024a)通过利用视觉-语言对齐策略如CLIP(Radford et al. 2021)和GLIP(Li et al. 2022a)将检测器扩展到固定分类法之外能够在动态和演化的环境中识别新类别。然而OWD系统通常在自然图像上训练在挑战性条件下应用时鲁棒性较差。因此当前研究揭示了一个不可避免的权衡注重鲁棒性的方法通常缺乏多样性而强调多样性的方法则牺牲了鲁棒性。我们能否开发一个统一框架同时在极端条件下实现鲁棒性并具备开放词汇泛化能力从而打破当前目标检测中多样性与鲁棒性之间的权衡在本文中我们提出了一个统一范式C3-OWD通过课程跨模态对比学习框架同时解决这两个挑战。训练分为两个阶段。在第一阶段我们通过在FLIR数据集(Systems 2018)等RGBT数据上预训练检测器增强其在恶劣环境下的鲁棒性。在第二阶段我们通过视觉-语言对齐注入来自文本的语义先验这提高了对未见类别的泛化能力并加强了视觉区域与文本描述的定位。课程学习中的一个关键难点是灾难性遗忘即第二阶段训练可能覆盖第一阶段学习的鲁棒性。为缓解这一问题我们引入了指数移动平均(EMA)机制(Karras et al. 2023; Lee et al. 2024; Li et al. 2024)。我们的理论分析表明EMA机制通过有界的参数滞后保留了前期性能确保了动量分支和在线分支之间的函数一致性并在从小数据集适应到大数据集时防止灾难性遗忘。我们的主要贡献总结如下• 我们提出了C3-OWD一个统一的跨模态课程学习范式集成了RGBT鲁棒性和开放词汇泛化能力。与传统方法受到模态偏见影响不同我们的方法通过渐进式学习动态平衡多模态信息减少鲁棒性与多样性之间的权衡以更好地适应多样化的环境条件。• 我们提供了严格的理论基础证明我们的指数移动平均(EMA)机制通过有界的参数滞后和保证的函数一致性有效防止灾难性遗忘为渐进式多模态学习中的稳定知识保留建立了数学保证。• 大量实验验证了C3-OWD的有效性C3-OWD在FLIR上达到80.1 AP50 _{50}50在OV-COCO上达到48.6 AP50 _{50}50Novel在OV-LVIS上达到35.7 mAPr _rr与先前最先进的方法相比取得了具有竞争力的结果。相关工作开放世界检测(OWD)OWD专注于检测和学习训练集中未标注的未知对象(Ma et al. 2023; Xi et al. 2024)。在推理过程中检测器识别潜在的未知对象这些对象随后被标注并作为新类别增量添加。早期方法如ORE(Joseph et al. 2021)通过聚类和基于能量的分类器增强了Faster R-CNN而基于transformer的方法如OW-DETR(Gupta et al. 2022)采用伪标注但通常生成嘈杂的标签。扩展方法如PROB(Zohar, Wang, and Yeung 2023)引入了概率对象性建模但校准问题仍然存在。最近大型视觉模型例如SAM(Kirillov et al. 2023)通过伪标注和知识蒸馏进一步推进了OWOD但在可靠未知检测方面的挑战仍然存在。RGBT目标检测为解决仅依赖RGB图像进行目标检测的局限性一些研究引入了热成像模态从而发展了RGBT目标检测(Zhou, Chen, and Cao 2020; Sun et al. 2022a)。一些方法使用不确定性或置信度指标来平衡RGB和热成像融合(Kim, Park, and Ro 2021; Li et al. 2023)而其他方法则根据照明水平调整对热输入的依赖(Guan et al. 2019; Li et al. 2019)。还提出了基于注意力的RGBT网络以进一步增强模态整合(Shen et al. 2024b; Yuan and Wei 2024)。在本工作中我们采用RWKV作为骨干网络并设计定制的训练策略以充分利用RGBT数据的优势。接收度加权键值(RWKV)RWKV (Peng et al. 2023)已成为序列建模的一种有前景的范式结合了循环网络的效率和transformers的可扩展性(Li et al. 2025; Hou and Yu 2024)。通过引入时间移位的接收度门和指数衰减的键投影它实现了线性时间复杂度和高效的内存使用(Peng et al. 2025)。这些优势导致了多模态整合的扩展(Yang et al. 2025b; Fei et al. 2024)。例如PointRWKV(He et al. 2025)增强了3D点云中的几何特征提取而Vision-RWKV (Duan et al. 2024a)改进了高分辨率图像理解超越了传统的ViTs。在本工作中我们利用RWKV高效融合两种视觉模态和文本充分利用其在多模态学习中的潜力。方法概述我们的目标是通过引入C3-OWD课程跨模态对比学习框架来增强在挑战性条件下的开放词汇检测。如图2所示我们的方法建立在两阶段设计架构之上。第一阶段利用RGBT可见光-热红外数据集增强鲁棒性。第二阶段在COCO上使用双动量对比对齐和文本调制可变形注意力进行训练以实现具有增强语义定位的开放词汇检测。第一阶段-多模态鲁棒性增强如图2第一阶段所示第一阶段的主要目标是通过RGB和红外模态的互补信息建立环境鲁棒的特征表示。与传统方法采用简单的特征连接或加权融合不同我们设计了一种基于RWKV的自适应跨模态交互机制。双模态特征提取给定配对的RGB-红外图像( I r g b , I i r ) ∈ R H × W × 3 (I_{rgb}, I_{ir}) \in \mathbb{R}^{H \times W \times 3}(Irgb,Iir)∈RH×W×3我们通过共享权重的CNN骨干网络提取多尺度特征F r g b { F r g b l } l 2 , 3 , 4 , F i r { F i r l } l 2 , 3 , 4 F_{rgb} \{F^l_{rgb}\}_{l2,3,4}, F_{ir} \{F^l_{ir}\}_{l2,3,4}Frgb{Frgbl}l2,3,4,Fir{Firl}l2,3,4其中F ∗ l ∈ R B × C l × H l × W l F^l_* \in \mathbb{R}^{B \times C_l \times H_l \times W_l}F∗l∈RB×Cl×Hl×Wl表示第l ll层的特征图。基于VRWKV的自适应融合为实现高效的跨模态交互我们采用VRWKV(Duan et al. 2024b)作为基础架构并扩展为双向注意力机制以捕获全局依赖关系。对于第t tt个令牌注意力输出计算为Bi-WKV ( K , V ) t ∑ i 0 , i ≠ t T − 1 e − ( ∣ t − i ∣ − 1 ) / T ⋅ w k i v i e u k t v t ∑ i 0 , i ≠ t T − 1 e − ( ∣ t − i ∣ − 1 ) / T ⋅ w k i e u k t \text{Bi-WKV}(K, V)_t \frac{\sum_{i0,i \neq t}^{T-1} e^{-(|t-i|-1)/T \cdot w k_i} v_i e^{u k_t} v_t}{\sum_{i0,i \neq t}^{T-1} e^{-(|t-i|-1)/T \cdot w k_i} e^{u k_t}}Bi-WKV(K,V)t∑i0,itT−1e−(∣t−i∣−1)/T⋅wkieukt∑i0,itT−1e−(∣t−i∣−1)/T⋅wkivieuktvt其中w ww是可学习的位置衰减参数u uu是当前令牌重要性权重k i k_ikiv i v_ivi分别是键和值向量。这种双向机制允许每个令牌同时考虑前向和后向上下文信息。RGB和红外特征通过VRWKV-Block(Duan et al. 2024b)交互生成模态感知的增强表示F r o b u s t VRWKV-Block ( F r g b , F i r ) F_{robust} \text{VRWKV-Block}(F_{rgb}, F_{ir})FrobustVRWKV-Block(Frgb,Fir)其中VRWKV-block由具有跨模态交互机制的编码器-解码器架构组成。编码器处理多尺度RGB-热特征而解码器细化表示实现两种模态互补信息的有效融合。在此阶段我们采用包括分类损失L c l s L_{cls}Lcls和回归损失L r e g L_{reg}Lreg在内的标准检测损失直接在配对的RGB-红外数据上进行监督。这种预训练策略使模型能够在不同照明条件下学习鲁棒的特征表示为后续开放世界适应奠定坚实基础。完整细节见算法1。第二阶段-视觉-语言泛化对齐如图2第二阶段所示在第二阶段我们通过三个互连组件进行全面的视觉-语言对齐语义增强融合、文本调制可变形注意力和双动量对比学习。此阶段用语义先验丰富视觉表示同时保持高效的开放词汇检测能力。语义增强融合我们首先通过分层视觉-语言融合模块用语义先验丰富视觉特征。来自骨干网络的视觉特征C { C 2 , C 3 , C 4 } C \{C_2, C_3, C_4\}C{C2,C3,C4}其中C 2 ∈ R B × 256 × H × W C_2 \in \mathbb{R}^{B \times 256 \times H \times W}C2∈RB×256×H×W通过线性投影层投影到共享空间C i ′ Linear ( C i ) , i ∈ { 2 , 3 , 4 } C_i \text{Linear}(C_i), i \in \{2, 3, 4\}Ci′Linear(Ci),i∈{2,3,4}缩放后的嵌入被连接为C Concat ( C 2 ′ , C 3 ′ , C 4 ′ ) ∈ R B × L × D C \text{Concat}(C_2, C_3, C_4) \in \mathbb{R}^{B \times L \times D}CConcat(C2′,C3′,C4′)∈RB×L×D其中L LL是序列长度D DD是嵌入维度。同时通过patch嵌入从C 2 C_2C2提取细粒度输入M , ( H p , W p ) PatchEmbed ( C 2 ) M, (H_p, W_p) \text{PatchEmbed}(C_2)M,(Hp,Wp)PatchEmbed(C2)其中M ∈ R B × N × D M \in \mathbb{R}^{B \times N \times D}M∈RB×N×D是patch令牌( H p , W p ) (H_p, W_p)(Hp,Wp)是patch分辨率。然后我们执行L LL轮M MM和文本嵌入T c l i p ∈ R B × C L A × D T_{clip} \in \mathbb{R}^{B \times C_{LA} \times D}Tclip∈RB×CLA×D其中C L A C_{LA}CLA是类别数之间的双向交叉注意力然后进行跨模态交换M o u t , T o u t CrossModalExchange ( M , T c l i p ) M_{out}, T_{out} \text{CrossModalExchange}(M, T_{clip})Mout,ToutCrossModalExchange(M,Tclip)其中CrossModalExchange模块使用基于RWKV的架构执行双向特征融合。具体来说该模块通过两个并行路径计算跨模态交互V I RWKV I → T ( R M , K T c l i p , V T c l i p ) V_I \text{RWKV}_{I \to T}(R M, K T_{clip}, V T_{clip})VIRWKVI→T(RM,KTclip,VTclip)V T RWKV T → I ( R T c l i p , K M , V M ) V_T \text{RWKV}_{T \to I}(R T_{clip}, K M, V M)VTRWKVT→I(RTclip,KM,VM)其中RWKV I → T \text{RWKV}_{I \to T}RWKVI→T表示图像到文本的RWKV交互RWKV T → I \text{RWKV}_{T \to I}RWKVT→I表示文本到图像的RWKV交互。在这里R RR充当来自一个模态的查询类而K KK和V VV是来自另一个模态的键值对。注意力特征随后与原始特征连接并通过两层MLP处理生成门控系数γ MLP ( [ M ⋅ V I ] ) , δ MLP ( [ T c l i p ⋅ V T ] ) \gamma \text{MLP}([M \cdot V_I]), \delta \text{MLP}([T_{clip} \cdot V_T])γMLP([M⋅VI]),δMLP([Tclip⋅VT])其中⋅ \cdot⋅表示连接。最终输出包含自适应残差连接M o u t M γ ⊗ V I , T o u t T c l i p δ ⊗ V T M_{out} M \gamma \otimes V_I, T_{out} T_{clip} \delta \otimes V_TMoutMγ⊗VI,ToutTclipδ⊗VT其中⊗ \otimes⊗表示元素乘法。此设计实现了自适应跨模态增强同时保留了原始特征表示。文本调制采样为增强具有语义指导的空间特征采样我们引入了文本调制采样机制。给定查询特征Q ∈ R B × N × D Q \in \mathbb{R}^{B \times N \times D}Q∈RB×N×D和文本特征T t e x t ∈ R B × N × D T_{text} \in \mathbb{R}^{B \times N \times D}Ttext∈RB×N×D该模块首先生成基础采样偏移Δ b a s e Linear ( Q ) \Delta_{base} \text{Linear}(Q)ΔbaseLinear(Q)其中Δ b a s e ∈ R B × N × 2 K \Delta_{base} \in \mathbb{R}^{B \times N \times 2K}Δbase∈RB×N×2K表示具有2D偏移的K KK个采样点。同时通过跨模态注意力计算文本引导的调制权重A Softmax ( Q ⋅ T t e x t T / D ) A \text{Softmax}(Q \cdot T^T_{text} / \sqrt{D})ASoftmax(Q⋅TtextT/D)W m o d MLP ( A ) ∈ R B × N × 2 K W_{mod} \text{MLP}(A) \in \mathbb{R}^{B \times N \times 2K}WmodMLP(A)∈RB×N×2K其中A ∈ R B × N × C A \in \mathbb{R}^{B \times N \times C}A∈RB×N×C表示查询和文本特征之间的注意力分数MLP将注意力加权特征从维度C CC映射到2 K 2K2K以匹配偏移维度MLP : R B × N × C → R B × N × 2 K \text{MLP}: \mathbb{R}^{B \times N \times C} \to \mathbb{R}^{B \times N \times 2K}MLP:RB×N×C→RB×N×2K。文本调制偏移通过结合基础偏移和调制获得Δ u p d a t e d Δ b a s e ⊕ W m o d \Delta_{updated} \Delta_{base} \oplus W_{mod}ΔupdatedΔbase⊕Wmod其中⊕ \oplus⊕表示元素加法。这些更新的偏移指导采样过程F s a m p l e d Linear ( Sample ( F r e f , p r e f Δ u p d a t e d ) ) F_{sampled} \text{Linear}(\text{Sample}(F_{ref}, p_{ref} \Delta_{updated}))FsampledLinear(Sample(Fref,prefΔupdated))其中F r e f F_{ref}Fref表示参考特征p r e f ( x , y ) p_{ref} (x, y)pref(x,y)是参考点Sample ( ⋅ ) \text{Sample}(\cdot)Sample(⋅)在偏移位置执行双线性插值。这种文本调制采样实现了语义感知的空间注意力改进了在物体边界和语义区域的特征提取。双动量对比对齐为解决训练过程中负样本受内存限制的问题我们采用MoCo(He et al. 2019)范式进行区域-文本对比学习。维护两个动量更新的特征队列Q r e g i o n ∈ R K × D p r o j , Q t e x t ∈ R K × D p r o j Q_{region} \in \mathbb{R}^{K \times D_{proj}}, Q_{text} \in \mathbb{R}^{K \times D_{proj}}Qregion∈RK×Dproj,Qtext∈RK×Dproj其中K KK是队列大小D p r o j D_{proj}Dproj是投影维度。通过IoU阈值τ I o U \tau_{IoU}τIoU选择正区域提案P p o s { p i ∣ IoU ( p i , g j ) ≥ τ I o U , ∃ g j ∈ G g t } P_{pos} \{p_i | \text{IoU}(p_i, g_j) \geq \tau_{IoU}, \exists g_j \in G_{gt}\}Ppos{pi∣IoU(pi,gj)≥τIoU,∃gj∈Ggt}区域特征通过RoI提取和投影进行编码r q f θ ( RoIExtractor ( F o u t , P p o s ) ) r_q f_\theta(\text{RoIExtractor}(F_{out}, P_{pos}))rqfθ(RoIExtractor(Fout,Ppos))r k f θ m ( RoIExtractor ( F o u t , P p o s ) ) r_k f_{\theta_m}(\text{RoIExtractor}(F_{out}, P_{pos}))rkfθm(RoIExtractor(Fout,Ppos))其中f θ f_\thetafθ是可训练的投影网络f θ m f_{\theta_m}fθm是其通过EMA更新的动量版本θ m ← m ⋅ θ m ( 1 − m ) ⋅ θ \theta_m \leftarrow m \cdot \theta_m (1 - m) \cdot \thetaθm←m⋅θm(1−m)⋅θ使用多正例InfoNCE损失进行图像到文本和文本到图像对齐L i 2 t − 1 N r ∑ i 1 N r log ∑ j ∈ P i exp ( s i j / τ ) ∑ j 1 N t K exp ( s i j / τ ) L_{i2t} -\frac{1}{N_r} \sum_{i1}^{N_r} \log \frac{\sum_{j \in P^_i} \exp(s_{ij}/\tau)}{\sum_{j1}^{N_t K} \exp(s_{ij}/\tau)}Li2t−Nr1i1∑Nrlog∑j1NtKexp(sij/τ)∑j∈Piexp(sij/τ)L t 2 i − 1 N t ∑ j 1 N t log ∑ i ∈ P j exp ( s j i / τ ) ∑ i 1 N r K exp ( s j i / τ ) L_{t2i} -\frac{1}{N_t} \sum_{j1}^{N_t} \log \frac{\sum_{i \in P^_j} \exp(s_{ji}/\tau)}{\sum_{i1}^{N_r K} \exp(s_{ji}/\tau)}Lt2i−Nt1j1∑Ntlog∑i1NrKexp(sji/τ)∑i∈Pjexp(sji/τ)其中s i j ⟨ r q , i , t k , j ⟩ ⋅ exp ( α ) s_{ij} \langle r_{q,i}, t_{k,j} \rangle \cdot \exp(\alpha)sij⟨rq,i,tk,j⟩⋅exp(α)表示第i ii个区域特征和第j jj个文本特征之间的相似性α \alphaα是可学习的温度参数τ \tauτ是固定的温度超参数N r N_rNr是当前批次中的区域特征数量N t N_tNt是当前批次中的文本特征数量K KK是动量队列大小P i P^_iPi是第i ii个区域的正文本索引集P j P^_jPj是第j jj个文本的正区域索引集。总对比损失L c o n t r a s t λ i 2 t L i 2 t λ t 2 i L t 2 i L_{contrast} \lambda_{i2t} L_{i2t} \lambda_{t2i} L_{t2i}Lcontrastλi2tLi2tλt2iLt2i其中λ i 2 t \lambda_{i2t}λi2t和λ t 2 i \lambda_{t2i}λt2i是损失权重。完整细节见算法2。定理1(EMA为动量分支保留前期性能)。设{ θ t } t ≥ 0 ⊂ R p \{\theta_t\}_{t \geq 0} \subset \mathbb{R}^p{θt}t≥0⊂Rp为第2阶段训练期间的在线分支参数动量(EMA)分支通过θ m , t ← m θ m , t − 1 ( 1 − m ) θ t \theta_{m,t} \leftarrow m\theta_{m,t-1} (1 - m)\theta_tθm,t←mθm,t−1(1−m)θt和θ m , 0 θ 0 \theta_{m,0} \theta_0θm,0θ0更新其中m ∈ ( 0 , 1 ] m \in (0, 1]m∈(0,1]。表示用于生成区域/文本嵌入的投影网络为f θ f_\thetafθ在线和f θ m f_{\theta_m}fθm动量多正例InfoNCE损失为L c o n t r a s t ( θ ) L_{contrast}(\theta)Lcontrast(θ)相似性s i j ⟨ r i ( θ ) , t j ( θ ) ⟩ s_{ij} \langle r_i(\theta), t_j(\theta) \ranglesij⟨ri(θ),tj(θ)⟩和温度τ 0 \tau 0τ0。这里我们假设(A1)有界单步运动∥ θ t − θ t − 1 ∥ ≤ δ t \|\theta_t - \theta_{t-1}\| \leq \delta_t∥θt−θt−1∥≤δt对所有t ≥ 1 t \geq 1t≥1成立并写Δ t : max 1 ≤ j ≤ t δ j \Delta_t : \max_{1 \leq j \leq t} \delta_jΔt:max1≤j≤tδj。(A2)参数到特征Lipschitz对于任何RoI/文本输入存在K r , K t 0 K_r, K_t 0Kr,Kt0使得∥ r i ( θ ) − r i ( θ ′ ) ∥ ≤ K r ∥ θ − θ ′ ∥ \|r_i(\theta) - r_i(\theta)\| \leq K_r \|\theta - \theta\|∥ri(θ)−ri(θ′)∥≤Kr∥θ−θ′∥和∥ t j ( θ ) − t j ( θ ′ ) ∥ ≤ K t ∥ θ − θ ′ ∥ \|t_j(\theta) - t_j(\theta)\| \leq K_t \|\theta - \theta\|∥tj(θ)−tj(θ′)∥≤Kt∥θ−θ′∥对包含{ θ s , θ m , s } s ≤ t \{\theta_s, \theta_{m,s}\}_{s \leq t}{θs,θm,s}s≤t的凸集中的所有θ , θ ′ \theta, \thetaθ,θ′成立。(A3)Logit/损失Lipschitz具有余弦或归一化相似性s i j ⟨ r i , t j ⟩ s_{ij} \langle r_i, t_j \ranglesij⟨ri,tj⟩和温度τ \tauτInfoNCE每例损失关于logit向量是ρ \rhoρ-Lipschitz其中ρ ≤ 1 / τ \rho \leq 1/\tauρ≤1/τ。那么对每个t ≥ 1 t \geq 1t≥1动量-在线参数滞后满足∥ θ t − θ m , t ∥ ≤ 1 − m m Δ t \|\theta_t - \theta_{m,t}\| \leq \frac{1 - m}{m} \Delta_t∥θt−θm,t∥≤m1−mΔt并满足以下界限函数一致性E [ ∥ f θ t ( x ) − f θ m , t ( x ) ∥ ] ≤ ( K r K t ) 1 − m m Δ t \mathbb{E}[\|f_{\theta_t}(x) - f_{\theta_{m,t}}(x)\|] \leq (K_r K_t) \frac{1 - m}{m} \Delta_tE[∥fθt(x)−fθm,t(x)∥]≤(KrKt)m1−mΔt损失保留∣ L c o n t r a s t ( θ t ) − L c o n t r a s t ( θ m , t ) ∣ ≤ ρ ( K r K t ) 1 − m m Δ t |L_{contrast}(\theta_t) - L_{contrast}(\theta_{m,t})| \leq \rho(K_r K_t) \frac{1 - m}{m} \Delta_t∣Lcontrast(θt)−Lcontrast(θm,t)∣≤ρ(KrKt)m1−mΔt特别地在任何时间t tt部署EMA/动量参数θ m , t \theta_{m,t}θm,t只要1 − m m Δ t ≤ ε ρ ( K r K t ) \frac{1-m}{m} \Delta_t \leq \frac{\varepsilon}{\rho(K_r K_t)}m1−mΔt≤ρ(KrKt)ε就能保证对参考分布的ε \varepsilonε-容差。两阶段训练策略第一阶段-多模态鲁棒性训练使用RGBT数据集我们通过可见光-热红外融合增强模型在极端环境中的鲁棒性。此阶段仅使用单个查询头没有任何辅助头。损失函数定义为L s t a g e 1 L d e t ( X v i s , X i r ) L_{stage1} L_{det}(X_{vis}, X_{ir})Lstage1Ldet(Xvis,Xir)其中L d e t L_{det}Ldet是检测损失包括分类损失L c l s L_{cls}Lcls和回归损失L r e g L_{reg}Lreg。第二阶段-开放词汇训练在COCO数据集上训练我们结合CLIP语义特征和动量对比学习。受CoDETR(Zong, Song, and Liu 2023)启发我们引入多个辅助头以增强编码器和解码器的训练效率。损失函数定义为L s t a g e 2 L d e t λ c L c o n t r a s t λ a u x L a u x L_{stage2} L_{det} \lambda_c L_{contrast} \lambda_{aux} L_{aux}Lstage2LdetλcLcontrastλauxLauxL a u x ∑ i 1 K L e n c i λ 1 ∑ i 1 K ∑ l 1 L L d e c , l i L_{aux} \sum_{i1}^K L^i_{enc} \lambda_1 \sum_{i1}^K \sum_{l1}^L L^i_{dec,l}Lauxi1∑KLenciλ1i1∑Kl1∑LLdec,li其中L d e t L_{det}Ldet是基于匈牙利匹配的检测损失包括分类和回归损失L c o n t r a s t L_{contrast}Lcontrast是用于开放词汇学习的对比损失使用CLIP语义L e n c i L^i_{enc}Lenci是第i ii个头的编码器辅助损失例如ATSS或Faster R-CNN损失L d e c , l i L^i_{dec,l}Ldec,li是第i ii个头在第l ll层的解码器辅助损失K KK是辅助头数量L LL是解码器层数λ c \lambda_cλc是L c o n t r a s t L_{contrast}Lcontrast的权重λ a u x \lambda_{aux}λaux是L a u x L_{aux}Laux的权重λ 1 \lambda_1λ1是解码器辅助损失的权重。为防止持续学习中可能出现的灾难性遗忘我们引入指数移动平均(EMA)(Karras et al. 2023; Lee et al. 2024; Li et al. 2024)。直观上EMA维护一个动量分支平滑参数更新使其接近在线分支同时保留第一阶段的鲁棒性。这有助于确保跨阶段的函数一致性和损失稳定性。实验数据集和评估指标训练过程分为两个阶段使用以下数据集FLIR数据集(Systems 2018)。该数据集提供热红外图像这种模态以其对挑战性条件如极端照明例如强光、黑暗和噪声污染的高鲁棒性而闻名。它们在第一训练阶段使用通过利用红外光谱的不变特性来增强检测器的鲁棒性和泛化能力。随后在第二训练阶段我们在两个标准开放词汇检测基准上评估我们的方法这些基准分别从LVIS(Gupta, Dollar, and Girshick 2019)和COCO(Lin et al. 2014)修改而来。LVIS(Gupta, Dollar, and Girshick 2019)包含100K张图像有1,203个类别。这些类别根据训练图像数量分为三组即频繁、常见和稀有。按照ViLD(Gu et al. 2021b)我们将337个稀有类别视为新类别仅使用频繁和常见类别进行训练。COCO数据集是目标检测的广泛使用的基准包含80个类别。按照OVR-CNN(Zareian et al. 2021)我们将COCO中的类别分为48个基础类别和17个新类别同时移除15个在WordNet层次结构中没有同义集的类别。训练集与完整COCO相同但仅使用至少包含一个基础类别的图像。对于FLIR(Systems 2018)数据集我们报告AP50 _{50}50——基础类别在IoU阈值为0.5时的平均精度(mAP)——作为主要指标。对于COCO(Lin et al. 2014)我们报告AP50 _{50}50novel——新类别在IoU阈值为0.5时的平均精度(mAP)——作为主要指标。此外我们提供基础类别(AP50 _{50}50base)的性能和所有类别(AP50 _{50}50)的整体性能。对于LVIS(Gupta, Dollar, and Girshick 2019)我们报告APr _rr、APc _cc和APf _ff——分别表示稀有、常见和频繁类别的mAP——以及使用标准基于框的mAP计算的整体AP。实现细节我们的模型基于Deformable-DETR(Zhu et al. 2020)架构从预训练的ResNet-50骨干网络初始化。第一阶段训练使用FLIR数据集(Systems 2018)第二阶段在COCO(Lin et al. 2014)和LVIS(Gupta, Dollar, and Girshick 2019)数据集上执行。第一阶段和第二阶段训练均使用36个epoch。我们使用AdamW优化器初始学习率为5 × 1 0 − 5 5 \times 10^{-5}5×10−5权重衰减为1 × 1 0 − 4 1 \times 10^{-4}1×10−4对骨干网络应用逐层学习率衰减乘数为0.1。在36个epoch的训练计划中学习率在第12和24个epoch时减少10倍。按照MoCo(He et al. 2019)我们设置K 65536 K 65536K65536和τ I o U 0.3 \tau_{IoU} 0.3τIoU0.3。所有输入图像调整为640 × 640 640 \times 640640×640像素每GPU批大小为4并应用梯度裁剪最大范数为0.1。按照Co-DTER(Zong, Song, and Liu 2023)模型包含多个检测头包括RPN、基于查询的和ROI头总共有6个编码器层和8个解码器层损失加权因子λ 2 \lambda_2λ2设置为2.0。我们设置λ c 0.01 \lambda_c 0.01λc0.01λ a u x 0.1 \lambda_{aux} 0.1λaux0.1λ 1 1 \lambda_1 1λ11。温度τ \tauτ设置为0.07。我们在8×NVIDIA A100 GPU上训练和评估我们的模型。主要结果如表1、2、3所示。尽管C3-OWD在FLIR数据集上未达到绝对最佳水平略低于MMFN的81.8但它在开放词汇检测任务OV-COCO和OV-LVIS上显著优于所有现有方法特别在OV-COCO上达到了显著的48.6 AP50 _{50}50novel——超越了CLIPSelf之前的最佳结果44.3。更重要的是C3-OWD是在多模态鲁棒性和开放词汇检测任务上都表现出领先性能的方法突显了其卓越的通用性和跨任务适应性。这表明我们提出的课程跨模态对比学习框架不仅增强了在极端环境中的鲁棒性还有效地转移到开放词汇场景实现了更广泛的应用性。消融研究表4展示了C3-OWD关键组件的消融结果。完整模型编号0在OV-COCO和OV-LVIS数据集上均取得最佳性能。移除编码器融合模块编号1导致性能显著下降AP50 _{50}50novel下降6.5APr _rr下降4.5证明了分层特征融合对开放词汇检测的关键作用。使用静态查询选择编号2而不是可变形注意力也导致相当大的性能下降验证了动态查询优化的有效性。缺乏文本交叉注意力编号3导致最显著的性能下降表明视觉-语言交互是跨模态对齐的核心。移除MoCo对比学习编号4对性能伤害最大突显了动量对比在解决正负样本不平衡方面的关键重要性。最后使用单队列而不是双队列MoCo编号5也降低了性能证明区域-文本双队列设计有效防止了模态间干扰。所有消融结果一致表明C3-OWD中的每个组件对最终性能都有重要贡献。如表5所示我们进行了彻底的消融研究以验证C3-OWD中两阶段课程设计的必要性。结果清楚地表明第一阶段的多模态训练和第二阶段的权重继承对实现最佳性能都至关重要。在第一阶段仅使用单一模态RGB或IR导致鲁棒性明显下降如FLIR AP50 _{50}50降低所示配置A和B与完整模型对比。这种性能下降传播到第二阶段的开放词汇检测任务强调了跨模态互补学习对获取泛化表示的重要性。使用随机权重而不是从第一阶段预训练的权重初始化第二阶段导致OV-COCO和OV-LVIS上性能大幅崩溃配置C与完整模型对比即使先前使用了完整的RGB-IR模态。这表明在第一阶段学习的鲁棒特征是后续语义对齐和对比学习的关键基础。当两个组件都被消融时配置D和E观察到最差的性能强化了所提出的课程学习管道是整体的两个阶段都不可或缺。可视化我们与传统方法进行了比较分析如图4所示。传统的RGBT检测器例如ICAFusion(Shen et al. 2024a)、MFPT(Zhu et al. 2023)等受限于其封闭集性质限制了它们在具有众多物体类别的开放世界场景中的泛化能力。另一方面传统的开放词汇目标检测(OVOD)方法例如ViLD(Gu et al. 2021a)、CORA(Wu et al. 2023b)等仅依赖RGB模态缺乏互补的红外信息导致在遮挡和阴影覆盖等挑战性条件下性能下降。相比之下我们提出的检测器有效集成了多模态输入与开放词汇识别在各种复杂环境中展示了卓越的泛化能力。此外RGB和热红外模态之间的比较揭示虽然所有模型在红外成像下表现良好但传统OVOD检测器在低光或过曝光条件下在RGB下表现显著下降进一步突显了我们模型增强的适应性和通用性。失败案例尽管整体性能强劲C3-OWD偶尔在挑战性场景中失败。如图3.(a)所示没有内部热源的密集物体如帽子、桌子和椅子显著影响了检测精度而我们当前的模型难以可靠地检测它们突显了基于红外检测对环境热源的敏感性。在图3.(b)中由于可见线索不足密集交通场景中严重遮挡的车辆被遗漏表明在严重遮挡下跨模态推理的局限性。图3.©显示了一个细粒度识别错误其中哈士奇被错误分类为狗表明CLIP的语义先验可能无法捕获细微的类间区别。局限性尽管结果令人鼓舞我们的方法存在几个需要进一步研究的局限性。计算开销。分层跨模态融合机制虽然有效但由于双向RWKV块和迭代注意力操作引入了额外的计算复杂性。这可能阻碍在资源受限设备如嵌入式系统或无人机上的实时部署。多模态数据依赖性。第一阶段严重依赖对齐的RGB-热(RGBT)数据进行鲁棒性增强。这种配对数据稀缺且收集和标注成本高昂限制了我们方法在热成像不可用领域的可扩展性。对未见模态的泛化。尽管我们的方法改进了开放词汇检测但其在完全未见的传感器模态例如LiDAR、雷达或极端域偏移下的性能尚未验证。训练复杂性。两阶段训练策略需要精心设计的课程和超参数调整可能增加次优收敛的风险并使重现复杂化。语义粒度。虽然CLIP提供了丰富的语义先验但其知识受到预训练概念的限制。我们的方法可能仍然难以处理CLIP训练分布中不存在的高度细粒度或特定领域的类别。我们认为这些局限性指出了有意义的未来工作方向包括高效融合设计、自监督适应和广义多模态预训练。未来工作基于第节和第节中识别的失败案例和局限性我们概述了几个有前景的未来研究方向。自监督模态对齐。减少对配对RGBT数据的依赖需要能够从未对齐或弱对齐的多模态流中学习鲁棒表示的方法。对比学习框架(Radford et al. 2021)可以在共享嵌入空间中对齐模态而无需严格的像素级对应提供了一条可行的前进道路。遮挡鲁棒表示学习。严重遮挡下的失败案例表明需要显式的遮挡建模。未来模型可以结合时间一致性约束(Feichtenhofer et al. 2019)或非模态完成网络(Qi et al. 2021)来推理部分可见的物体。细粒度语义增强。为克服CLIP在细粒度分类方面的局限性未来工作可以集成特定领域的知识库(Marino, Salakhutdinov, and Gupta 2019)或利用大型语言模型(OpenAI 2023)来丰富具有详细属性描述的语义先验。广义多模态预训练。将我们的方法扩展到未见模态如LiDAR和雷达需要开发模态无关的融合策略。在多样传感器数据上预训练的统一多模态transformers(Akbari et al. 2021)可以增强在域偏移下的泛化能力。无监督域适应。为减轻训练复杂性未来工作应研究自监督域适应技术(Ganin et al. 2016)减少对精心设计课程和广泛超参数调整的需求。社会影响我们的方法为开放世界检测指出了一个有前途的方法显著增强了安全关键应用中视觉系统的可靠性。通过利用鲁棒的多模态(RGB-热)融合我们的框架在低照度、雾和遮挡等挑战性条件下展示了卓越的性能。这种能力对于实现全天候自动驾驶系统至关重要确保在传统视觉失效的情况下更安全的导航。此外它使无人机(UAVs)能够在恶劣环境中更有效地执行搜索救援和灾难监测任务。开放词汇检测的集成还允许这些系统动态识别新物体扩展其在真实场景中的实用性而无需昂贵的重新训练。我们相信我们的工作为更适应性强和值得信赖的AI系统铺平了道路这些系统可以在开放世界中可靠运行最终为交通、监控和应急响应等领域的公共安全和运营效率做出贡献。结论在本文中我们介绍了一种用于开放世界检测的创新课程跨模态对比学习框架C3-OWD。所提出的两阶段训练范式解决了实现环境鲁棒性和开放世界泛化的根本挑战。我们的EMA机制为跨训练阶段的知识保留提供了理论保证具有严格证明的有界参数滞后和函数一致性。RGBT多模态融合与基于RWKV的架构的集成实现了从可见光和红外模态捕获互补信息的有效性而视觉-语言对齐阶段将检测能力扩展到新类别而不牺牲学习到的鲁棒性。大量实验验证了C3-OWD在OV-COCO、OV-LVIS和FLIR上的有效性。C3-OWD与先前最先进的方法相比取得了具有竞争力的结果。