2026/6/20 2:39:56
网站建设
项目流程
做爰全过程免费的视频网站有声音,做网站需要多大的内存,常见的营销手段,大型网站权限设计每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗#xff1f;订阅我们的简报#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会#xff0c;成为AI领…每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗订阅我们的简报深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同从行业内部的深度分析和实用指南中受益。不要错过这个机会成为AI领域的领跑者。点击订阅与未来同行 订阅https://rengongzhineng.io/上个月我帮一个朋友把他的 LLM API 成本削减了80%。他是一个非技术出身的创业者正在打造一个由 AI 驱动的业务。和大多数人一样他选择了 GPT-5因为它是默认选项API 已经有了、基准测试数据不错、大家都在用——那还用考虑什么呢但随着使用量增长他的账单也涨了。仅 API 调用费用就达到了每月 1500 美元。于是我们针对他的实际提示词prompts对100 多个模型进行了基准测试。很快我们发现虽然 GPT-5 表现稳健但几乎从不是最划算的选择——总能找到成本更低、质量相近的替代方案。找到合适的模型后他节省了上千美元。以下是我们如何做到的。问题公开基准无法预测你自己的任务表现选择 LLM 时大多数人只是挑一个熟悉的服务商。比如我习惯用 Anthropic根据任务选择 Opus、Sonnet 或 Haiku。稍微讲究点的会查查各种排行榜Artificial Analysis、LM Arena、GPQA Diamond、AIME、SWE Bench、MATH 500、Humanity’s Last Exam、ARC-AGI、MMLU……但让我们面对现实这些指标并不能预测模型在你具体任务上的表现。一个在推理类 benchmark 中得分最高的模型可能在损害费用估算上表现平平或在多语言客服、网页数据提取等方面完全不行。它们充其量只能作为“粗略参考”而且完全没有考虑成本。唯一真正知道性能的方法就是在你自己的提示词上测试同时考虑质量、成本和响应延迟。自建基准测试为了弄清楚这一点我们自己搭建了基准系统。以下以一个客户支持场景为例步骤 1收集真实示例我们通过 WHAPI 提取了真实的客服对话包含历史聊天记录、客户的最新消息以及朋友实际回复的内容。他还提供了手动与自动生成的提示模板。基于此我们选取了约 50 个聊天案例——既包括常见问题也包含希望模型能正确应对的特殊情况。步骤 2定义预期输出每个示例的“理想答案”就是朋友实际回复的内容。我们还定义了具体的评分标准例如一个好的回答应告诉客户该产品售价为 5.99 美元并立即提供下单选项或一个好的回答应说明退货政策为 30 天但客户已在两个月后才寄回货品。这样模型评分时就能有依据。步骤 3构建基准数据集至此我们得到一个简单的数据集输入提示conversation 指令与期望输出expected response。这个格式通用适用于各种场景。如果某个模型表现很好也可以用它的结果生成标准答案并微调。步骤 4在所有模型上运行我们通过 OpenRouter 平台来运行这些模型因为它提供统一 API可以轻松切换模型from openai import OpenAI client OpenAI( base_urlhttps://openrouter.ai/api/v1, api_keyOPENROUTER_API_KEY, ) completion client.chat.completions.create( modelopenai/gpt-5, # 或 anthropic/claude-opus-4.5, google/gemini-3-pro-preview 等 messages[{role: user, content: Hello!}] )这让我们能用相同代码测试 50 模型。运行结果输出为一个 dataframe记录每个模型的输入、期望输出和实际输出。显然这样的数据量太大不可能人工评分于是我们又让 LLM 来当评委。步骤 5用 LLM 作为“评审者”我们选用 Opus 4.5 来对每条样本的模型输出进行评分——从 1 到 10 分依据之前定义的具体标准。有了详细标准后LLM 评分更一致、更可靠。我们人工抽查部分结果验证“评审”模型是否判断得当。有时因为期望答案模糊评分会偏差因此这一过程是迭代的。我们不仅让它输出分数还让它说明评分理由。这种方法在其他任务上也适用为每个 prompt 定义标准答案然后让“评委模型”对不同 LLM 的回答打分。决策选出最佳模型现在我们拥有每个模型的质量评分。下一步要做的是——选哪个理想的模型应在质量、成本、延迟之间取得平衡。在客户支持任务中延迟非常关键。GPT-5 的回答质量很好但上下文多时可能要等整整一分钟。而在另一个任务损害费用估算中我们更关心精度不介意多花点时间。因此我们还需衡量成本Cost不仅是单价token 费用还包括每次调用的总花费因为不同模型输出长度不同。延迟Latency我们测量生成完整回答所需总时间。最后得到每个模型的三项指标——质量、成本、延迟。通常我们只需按质量排序再选一个价格相对便宜、速度可接受的模型即可。帕累托效率Pareto Efficiency我们发现一个很实用的概念帕累托前沿Pareto Frontier。假设我们有 100 个模型每个都有一个成本与质量分数。如果某个模型 A 比模型 B更便宜且更好那模型 B 就没有存在价值。筛选掉这些“被支配”的模型后剩下的就是帕累托前沿——即“给定预算下最优的模型集合”。在图上横轴是价格纵轴是质量。所有蓝点代表既没有更便宜又更好的替代品的模型。连接这些点就得到最优边界。可见在优化质量与成本时其它模型都没必要再看。通过模型切换节省每月 1000 美元利用基准测试结果我们找到了一些质量几乎相同、但成本低达10 倍的模型。朋友最终选了一个稳妥版本也把支出减少了 5 倍——每月省下1000 多美元。这过程虽然有效但太繁琐于是我开发了一个工具。Evalry一个可在 300 LLM 间自动做基准测试的工具真正做到“为自己的任务找到最优模型”比想象的复杂得多。要整合多家 API、设计打分逻辑、处理错误手动测 5 个模型都得花上好几个小时。更糟的是新模型几乎每周发布一次成本常被减半根本追不上。因此我为朋友、也为所有有同样困扰的人构建了Evalry。它能自动测试你实际的提示词对比300 多个模型的质量、速度与成本一键生成可视化报告——无需编程几秒出结果。真正做到不再凭感觉选模型而是用数据驱动决策。