自己做的网站源码如何安装哈尔滨在线制作网站
2026/6/20 7:29:10 网站建设 项目流程
自己做的网站源码如何安装,哈尔滨在线制作网站,wordpress怎么看免费主题,wordpress推广网站插件随着大语言模型#xff08;LLM#xff09;的快速发展#xff0c;我们正进入一个“模型选择”本身变得越来越复杂的时代。一方面#xff0c;大模型数量不断增加#xff0c;不同模型在性能、推理成本以及回答风格上差异显著。另一方面#xff0c;在真实应用场景中#xff…随着大语言模型LLM的快速发展我们正进入一个“模型选择”本身变得越来越复杂的时代。一方面大模型数量不断增加不同模型在性能、推理成本以及回答风格上差异显著。另一方面在真实应用场景中用户之间的偏好并不相同有的用户更看重准确性有的更关注成本还有的更在意表达风格是否清晰、简洁或富有真情实感。然而现有的大多数 LLM 路由方法仍然停留在统一的数值目标假设之下要么只优化性能要么只考虑成本或者在二者之间设定阈值进行判断。这使得这些方法在多用户场景中难以适配也无法真正做到“以用户为中心”。针对这一问题来自 UIUC 的研究团队在 TMLR 发表了最新工作 PersonalizedRouter提出了一种面向多用户场景的个性化大模型路由框架尝试学习用户隐藏的偏好特征解决“不同用户该选最合适的大模型”的问题。论文标题PersonalizedRouter: Personalized LLM Routing via Graph-based User Preference Modeling论文地址https://arxiv.org/abs/2511.16883代码地址https://github.com/ulab-uiuc/PersonalizedRouter方法核心基于用户隐藏偏好特征进行LLM选择PersonalizedRouter 的核心思想是不再假设用户偏好是已知或固定的而是从历史交互数据中学习每个用户的隐式偏好并据此为每一次查询选择最合适的大模型。与以往基于向量匹配或规则判断的方法不同PersonalizedRouter 从结构化建模的角度重新思考了 LLM 路由问题。研究者将用户交互数据转化为一个异构图其中包含四类节点用户User任务Task查询Query大模型LLM不同类型节点之间通过边连接例如用户–任务、任务–查询、查询–LLM 等。其中查询–LLM 边是整个路由决策的关键边的特征来自用户的历史选择结果如性能–成本加权权衡数值或由 LLM-as-a-Judge 选出的最佳回答它直接对应了在某一次交互中这个查询最终由哪个 LLM 执行。在图构建完成后通过在该图上使用图神经网络GNN经过多轮传播后每一类节点都会得到一个高维嵌入向量。其中用户节点的嵌入编码了该用户在历史交互中体现出的偏好特征因此模型可以在消息传递过程中逐步学习到不同用户在性能、成本和回答风格上潜在的偏好差异。最终LLM 选择被统一建模为一个链接预测问题。模型会将用户、任务和查询三个节点的最终嵌入进行融合得到的联合嵌入用于刻画当前用户在某个任务下查询的需求。接下来该联合嵌入将会分别与每一个候选 LLM 的嵌入进行匹配计算。最终得到的分数用户衡量哪一个模型最可能是“这个用户最满意的选择”。两种模拟策略系统评估「个性化能力」在多用户 LLM 路由场景下真实用户偏好既复杂又难以直接获取。如果仅在单一评价指标下进行评估很容易错误估计模型的实际水平。因此为了系统性地评估不同路由方法在多用户场景下的表现论文设计了两种模拟评估策略1. 多成本-性能权衡模拟聚焦于性能与推理成本之间的权衡通过不同权重组合模拟从性能优先到节省成本优先等多种用户类型。论文通过线性组合构造一个统一的 reward 函数reward 函数由回答的性能和成本约束其中性能与成本分别拥有不同权重。2. LLM-as-a-Judge 模拟在很多应用场景中用户更关心 LLM 的回答是否符合自己的阅读和理解习惯而这类偏好往往难以用传统指标量化。论文利用额外的大模型作为裁判根据不同用户画像如工程师、学生、内容创作者等来判断哪种回答更符合其偏好从而模拟选出最适合各个群体的答案。PersonaRoute-Bench更大规模的多用户评测基准为了检验个性化路由在真实系统级别的可扩展性研究者构建了 PersonaRoute-Bench将评测从小规模用户推进到更贴近真实应用的千级用户规模。在这个基准中研究者围绕两个关键目标进行设计1用户偏好分布要足够丰富减少使用刻板用户风险2偏好标注机制更加稳健减少单一裁判模型引入的偏差。在多成本-性能权衡模拟路径下研究者通过采用更细粒度的偏好阈值将reward 函数形成更连续的偏好值以模拟真实世界中用户多样性的场景。在 LLM-as-a-Judge 模拟路径下研究者采用了三种不同的裁判 LLM每种裁判 LLM 依次采用两种不同的裁判指令模板进行选择。最终每一个用户画像将在 6 种裁判配置下进行用户偏好模拟。实验结果在多种场景下显著优于现有方法实验结果表明PersonalizedRouter 在多项关键指标上均显著超过现有主流方法如上图所示在小规模设置9 名用户、10 个候选 LLM和 PersonaRoute-Bench 大规模设置场景下PersonalizedRouter 能够在两种设置下同时取得优势。进一步对比小规模与大规模实验可以发现 PersonalizedRouter 在用户数量从个位数扩展到千级时性能在保持领先的情况下相比较最佳表现仅下降约 5%。如上图所示在引入新用户或新模型的场景下PersonalizedRouter表现出强大的泛化性仍可达到完整训练模型大部分的性能。如上图所示考虑到模拟用户不能完全模拟真实用户行为分布研究者在一个Human-as-a-Judge小规模真实用户交互数据集上进行了实验PersonalizedRouter 在真实用户偏好下的仍具强大的能力。总结“以用户为中心”的路由愈发重要在大模型能力特长不断分化、用户需求持续变化的背景下这项工作表明LLM 路由不应只是性能或成本的权衡而应从用户出发能够学习并适配用户差异。通过将用户偏好视为可学习的隐藏变量并在多用户、大规模场景下验证其可扩展性PersonalizedRouter 展示了一种更接近真实系统需求的路由范式也为构建以用户为中心的多模型协同系统提供了可行路径。更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询