推广专员二十条优化
2026/4/18 13:03:02 网站建设 项目流程
推广专员,二十条优化,网站建设html模板,企业网站导航菜单多任务学习一直是机器学习中的一个诱人愿景#xff1a;让单个模型同时掌握多项技能#xff0c;像人类一样举一反三#xff0c;提升数据利用效率。然而#xff0c;在现实中#xff0c;同时学习多个任务#xff0c;效果有时还不如为每个任务单独训练一个模型。 其核心矛盾在…多任务学习一直是机器学习中的一个诱人愿景让单个模型同时掌握多项技能像人类一样举一反三提升数据利用效率。然而在现实中同时学习多个任务效果有时还不如为每个任务单独训练一个模型。其核心矛盾在于不同任务的梯度指导模型更新的方向经常“打架”。有的梯度幅值大有的方向完全相反。简单地将梯度加起来更新模型就会被大梯度或某个特定任务“带偏”导致其他任务学不好。学术界提出了一系列基于梯度组合的方法它们通过加权、投影、统一符号等方式调和梯度冲突并保证梯度优化可以收敛到多任务学习的纳什均衡解。目录经典文章[ICML 2018] GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks[NeurIPS 2018] Multi-Task Learning as Multi-Objective Optimization (MGDA-UB)[NeurIPS 2020] Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign Dropout (GradDrop)[NeurIPS 2020] Gradient Surgery for Multi-Task Learning (PCGrad)[NeurIPS 2021] Conflict-Averse Gradient Descent for Multi-task learning (CAGrad)[ICML 2022] Multi-Task Learning as a Bargaining Game (Nash-MTL)[NeurIPS 2023] Direction-oriented Multi-objective Learning: Simple and Provable Stochastic Algorithms (SDMGrad)[NeurIPS 2023] FAMO: Fast Adaptive Multitask Optimization将梯度组合方法应用在 LLM 领域经典文章[ICML 2018] GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networksarxivhttps://arxiv.org/abs/1711.02257参考博客CSDN | GradNorm多任务学习中的梯度平衡方法根据各个任务 loss 下降的速度动态调节每个任务的权重。希望学得慢的任务获得更大的梯度学得快的任务则减小梯度。[NeurIPS 2018] Multi-Task Learning as Multi-Objective Optimization (MGDA-UB)arxivhttps://arxiv.org/abs/1810.04650参考博客CSDN | MGDA-UB寻找多任务学习中的帕累托最优缓解任务冲突问题是 MGDA 方法的直接改进。MGDA 希望求解各个梯度\(\nabla_\theta L_i\)之间的凸组合找权重\(\alpha\)\(\sum_i \alpha_i 1\)让加权后的梯度\(\|\sum_i \alpha_i \nabla_\theta L_i\|^2\)的二范数最小。[NeurIPS 2020] Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign Dropout (GradDrop)arxivhttps://arxiv.org/abs/2010.06808参考博客CSDN | GradDrop让多任务学习不再“梯度拔河”对于每一个参数GradDrop 只允许一个“方向”的更新要么全增加要么全减少但保留这个方向上所有的“力量”。与其让正负梯度在“拔河”中相互抵消不如在每次更新时统一所有梯度的方向符号。对于每个参数位置我们汇集所有任务在该处的梯度值计算一个梯度符号纯度分数。然后生成一个 0 到 1 之间的随机数与纯度比较如果纯度 随机数则保留所有正梯度丢弃所有负梯度纯度 随机数则相反。[NeurIPS 2020] Gradient Surgery for Multi-Task Learning (PCGrad)arxivhttps://arxiv.org/abs/2001.06782GitHubhttps://github.com/WeiChengTseng/Pytorch-PCGrad参考博客CSDN | PCGrad通过梯度手术让多任务学习不再“左右互搏”又是 tianhe yu 的工作。做了 RL task。如果两个任务的梯度方向冲突余弦相似度 0即夹角 90°就把每个梯度投影到另一个梯度的“垂直平面”上去掉冲突部分。[NeurIPS 2021] Conflict-Averse Gradient Descent for Multi-task learning (CAGrad)arxivhttps://arxiv.org/abs/2110.14048OpenReviewhttps://openreview.net/forum?id61Qh8tULjGitHubhttps://github.com/Cranial-XIX/CAGradMTRL 的 GitHubhttps://github.com/facebookresearch/mtrl参考博客CSDN | CAGrad保证收敛到平均损失最小的多任务梯度算法做了 RL task好像 RL task 的代码开源了。CAGrad 在平均梯度附近寻找一个更新方向让所有任务中损失下降最慢的那个任务 也能得到提升从而平衡各任务同时还能保证最终收敛到平均损失的最小值。[ICML 2022] Multi-Task Learning as a Bargaining Game (Nash-MTL)arxivhttps://arxiv.org/abs/2202.01017GitHubhttps://github.com/AvivNavon/nash-mtl参考博客CSDN | Nash-MTL在多任务梯度组合中引入纳什谈判解做了 RL task。Nash-MTL 的理论对各个 task i希望求解梯度\(\Delta\theta\)最大化\(\sum\log g_i^\top \Delta\theta\)。这样的\(\Delta\theta\)方向是唯一的模长 原文有说法。[NeurIPS 2023] Direction-oriented Multi-objective Learning: Simple and Provable Stochastic Algorithms (SDMGrad)arxivhttps://arxiv.org/abs/2305.18409GitHubhttps://github.com/OptMN-Lab/SDMGrad主要内容感觉是 CAGrad 的直接改进但把 CAGrad 限制梯度一定要在平均 loss 下降方向的一个球内这个约束换成了 λ 加权的惩罚因为这个新形式天然允许构造一个无偏的随机梯度估计器。做了 RL task。[NeurIPS 2023] FAMO: Fast Adaptive Multitask Optimizationarxivhttps://arxiv.org/abs/2306.03792GitHubhttps://github.com/Cranial-XIX/FAMO可能直接有 Nash-MTL 的 MTRL 代码不确定。论文还没看。将梯度组合方法应用在 LLM 领域以下文章都是发表在质量高的会议上的在学术的角度应该可以算正样本。还没具体看。 Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models -- 梯度自适应策略优化迈向大语言模型的多目标对齐信息ACL 2025 (main)https://arxiv.org/abs/2507.01915关键词将人类价值观对齐问题构建为一个多目标优化问题梯度自适应策略优化 (GAPO)自适应地重新调整每个目标的梯度引入用户 preference权重向量收敛到一个多目标非支配解Mistral-7B Pareto Multi-Objective Alignment for Language Models -- 语言模型的帕累托多目标对齐信息ECML/PKDD 2025https://arxiv.org/abs/2508.07768关键词提出了帕累托多目标对齐PAMA将 O(n^2*d) 复杂度降低到 O(n)收敛到一个 Pareto 稳定点从 125M 到 7B 参数范围 GRAPE: Optimize Data Mixture for Group Robust Multi-target Adaptive Pretraining -- GRAPE: 优化数据混合以实现群体鲁棒多目标自适应预训练信息NeurIPS 2025https://arxiv.org/abs/2505.20380关键词GRAPE 动态调整源域领域权重的采样权重同时调节各个任务的权重建模为一个极小极大优化问题实验验证了 ClimbLab、SlimPajama 数据集和多语言目标 CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models -- CoBa: 用于多任务微调大语言模型的收敛平衡器信息EMNLP 2024 (main)https://arxiv.org/abs/2410.06741关键词不同任务收敛速度差异巨大有的先“学完”开始过拟合有的还几乎没学到coba 希望各个任务最终一起收敛计算完全在 loss 级别避免显式求多任务梯度 AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models -- AMoPO: 无需奖励模型和参考模型的自适应多目标偏好优化信息ACL 2025https://arxiv.org/abs/2506.07165关键词alignment 的目标可以通过输出特性指标如礼貌性、简洁度、真实性间接刻画不一定每个都要 reward 模型把这些“维度感知的生成指标”当成隐式 reward构建多目标优化问题在“偏好权重空间”假设一个高斯分布动态从中采样权重向量作为每次更新的标量化权重7B、14B 和 32B 模型的实验去掉显式 reward/reference 模型大幅减轻工程负担 PiKE: Adaptive Data Mixing for Large-Scale Multi-Task Learning Under Low Gradient Conflicts -- PiKE: 适用于低梯度冲突下大规模多任务学习的自适应数据混合信息NeurIPS 2025 spotlighthttps://arxiv.org/abs/2502.06244关键词多任务梯度其实大部分时间是“低冲突/高度正对齐”的不是我们在 CV 小模型上常见的那种强负相关场景估计各任务梯度的期望下降量和方差推导出每步期望 loss 降低的上界然后选择能最大化这个上界的任务采样分布即“下个 batch 选哪个任务的数据” LDC-MTL: Balancing Multi-Task Learning through Scalable Loss Discrepancy Control -- LDC-MTL: 通过可扩展损失差异控制平衡多任务学习信息ICLR 2026 分数 6644https://arxiv.org/abs/2502.08585关键词把 MTL 写成双层优化问题收敛到 ε‑Pareto stationary 点同时控制 loss 之间的差距

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询