2026/6/20 8:10:39
网站建设
项目流程
摄影素材网站,手工迷你饮水机,欧米茄官方网站,乌克兰俄罗斯最新消息来自复旦大学和上海人工智能实验室的研究者提出了一种简单而有效的度量方法#xff0c;Rank-Surprisal Ratio (RSR)。
什么样的思维链#xff0c;能「教会」学生更好地推理#xff1f;
许多人都有这样的学习体验#xff1a;内容过于熟悉#xff0c;难以带来新的收获Rank-Surprisal Ratio (RSR)。什么样的思维链能「教会」学生更好地推理许多人都有这样的学习体验内容过于熟悉难以带来新的收获内容过于陌生又往往超出理解能力难以消化吸收。类似的现象同样出现在大语言模型的推理蒸馏中。来自能力更强的教师模型的思维链可能过于晦涩学生模型难以掌握其推理模式而与学生认知相近的教师模型其推理轨迹又常常缺乏新信息难以带来实质提升。因此要获得理想的蒸馏效果关键在于为不同学生模型选择恰好合适的数据在「熟悉」与「陌生」之间找到最佳平衡。然而现有基于概率的筛选或度量方法如 Perplexity难以刻画这种细粒度的适配关系。那么是否存在一种直观且易于计算的数据适配度指标能够量化这种平衡来自复旦大学和上海人工智能实验室的研究者提出了一种简单而有效的度量方法Rank-Surprisal Ratio (RSR)RSR 从学生模型的视角出发综合考虑样本的信息量与对齐程度旨在找出那些既足够「新」又未超出学生认知边界的推理数据。在大规模蒸馏实验中RSR 与学生模型后训练性能的相关性高达 0.86并且可以直接用于筛选推理轨迹以及选择教师模型无需实际训练即可找到更合适的思维链数据。论文链接https://arxiv.org/pdf/2601.14249代码链接https://github.com/UmeanNever/RankSurprisalRatio反直觉的现象长思维链CoT的生成被普遍认为是大模型推理能力的核心。相应地包含长思维链的推理轨迹常被视为高质量的监督信号可以用于有监督微调SFT训练学生模型或助力强化学习的冷启动。但越来越多的实验呈现出一个反直觉现象教师模型越强学生模型未必学得越好。在这篇工作中作者系统性地构建了 11 个 teacher教师模型× 5 个 student学生模型的蒸馏实验覆盖从 4B 到 671B 的主流推理模型。结果显示teacher 的参数规模、推理准确率与 student 的推理提升相关性很弱同一个 teacher 的数据在不同 student 上的训练效果差异显著跨模型家族的 teacher如 GPT-OSS → Qwen往往效果更差推理数据是否「适合」当前 student 是关键。表一蒸馏实验结果在多个数学 benchmark 上评测 student 模型使用 teacher 数据训练后的性能现有数据筛选方法的问题当前主流的数据筛选或评估方法大多依赖一个信号student 模型生成该数据的概率perplexity /log-likelihood/surprisal认为 student 觉得「自然」的数据就更容易学。但问题在于太「自然」的推理数据往往信息增量有限真正有价值的推理数据恰恰是 student 尚未充分掌握的部分。这就引出了论文试图解决的核心矛盾 ——Informative Alignment Challenge如何在提供新知识的 informativeness 与符合学生当前认知的 alignment 之间取得平衡关键洞察「绝对陌生 (Absolute unfamiliarity) 相对熟悉 (Relative familiarity)」的推理数据最有学习价值面对看似难以兼顾的「熟悉 - 陌生」的平衡作者从 token 级别重新审视 student 的预测分布提出一个直观、但之前被忽略的视角Informativeness 关注的是当前 token 在概率层面的绝对陌生度可由 Surprisal−log p / 负对数似然刻画Alignment 关注的是当前 token 对比其它候选 token 的相对熟悉度可由 Rank在词表预测中的名次衡量。在这一视角下一个 token 可以同时满足被 student 生成的概率不高informative但在候选词表中排名靠前aligned因此informativeness 与 alignment 并非天然冲突。恰恰是同时满足这两点的 token构成了最适合 student 学习的推理数据。图一Rank-Surprisal Ratio 的设计动机 —— 合适的推理数据应当兼顾 informativeness 与 alignment直观的指标Rank-Surprisal Ratio基于前文在 token 级别的观察以及相关仿真分析与数学推导论文提出了一个形式上极其简洁的样本级指标直觉解释分子Rank越小表示当前样本越符合 student 的行为模式对齐程度alignment越高分母Surprisal越大表示当前样本提供的信息量越充分信息性informativeness越强RSR 越小 → 信息量与对齐程度的平衡越好。在实现上仅需对 student 进行一次前向计算不依赖 verifier 或额外测试数据融合了 rank clipping 与 surprisal 加权平均机制在极端情况下具有更好的数值稳定性。实验与训练效果的相关性作者将 RSR 与多种已有指标进行了对比包括 teacher 模型及训练数据的若干统计量、常用的数据质量评估方法、基于概率的指标以及其他基于 student 模型计算的指标。实验结果在 5 个 student 模型上高度一致RSR 与 student 模型后训练性能的 Spearman 相关系数平均达到 0.86显著高于其它指标。表二不同指标与模型后训练推理性能之间的相关性在实际场景中的应用场景 1Trajectory Selection (选择最合适的推理轨迹数据在该场景中针对训练集中的每一道题目作者从多个 teacher 模型生成的 33 条候选思维链中依据不同指标选择一条最合适的推理轨迹从而构建用于训练 student 的推理数据集。实验结果表明基于 Rank-Surprisal Ratio 筛选得到的数据在不同 student 模型上训练后均取得了最优的推理性能优于其它方法。表三不同数据筛选方法的后训练性能场景 2Teacher Selection选择最合适的教师模型在该场景中作者仅使用每个 teacher 模型生成的 200 条推理轨迹来估计其与不同 student 的适配程度从而模拟实际蒸馏前的 teacher 选择过程。实验结果显示RSR 能稳定选出接近 oracle真实最优的 teacher 模型整体表现优于其它方法。表三不同 teacher 模型选择方法的表现结语这项工作重新审视了推理蒸馏中一个看似简单却难以回答的的问题什么样的推理轨迹能「教会」student 更好地推理。通过将 token 的 相对熟悉度rank 与 绝对信息量surprisal 结合Rank-Surprisal Ratio 给出了一个直观、易于计算、且在大规模实验中被验证有效的答案。更重要的是RSR 并不依赖额外的评估数据或验证器而是直接从 student 的视角出发刻画数据价值。这使它不仅是一个分析工具也具备作为实际数据工程指标的潜力。向前看这种「informative alignment」的视角或许可以进一步扩展到更通用的 reasoning 任务如 code、tool use推理轨迹的重写与合成而不仅是选择以及与 On-policy Distillation、RL 结合的动态数据调度。当推理模型的瓶颈逐渐从「规模」转向「数据的高效利用」理解哪些思维过程真正具有教学价值可能将成为下一阶段 post-training 的关键问题。作者介绍杨宇铭复旦大学自然语言处理实验室博士生导师为张奇教授。本科毕业于复旦大学数学系硕士毕业于密歇根大学统计学系。博士阶段前曾在微软担任数据科学家。研究方向为自然语言处理与大语言模型作为第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等顶级会议发表多篇论文。