2026/6/20 6:07:23
网站建设
项目流程
如何创建网站教程,广告公司叫什么名字好,前期的网站建设的难度,最新军事战争新闻当上下文过长时#xff0c;一般是怎么进行压缩的#xff1f;
当大语言模型#xff08;LLM#xff09;的上下文过长#xff08;超过模型原生上下文窗口#xff0c;或即使在支持长上下文的模型中也希望降低成本、加速推理、减少KV cache占用#xff09;时#xff0c;目前…当上下文过长时一般是怎么进行压缩的当大语言模型LLM的上下文过长超过模型原生上下文窗口或即使在支持长上下文的模型中也希望降低成本、加速推理、减少KV cache占用时目前业界主流的压缩/优化方式可以大致分为以下几类从最常用到较前沿的排序1. 最常见、最广泛使用的几种方式工程上最成熟压缩方式核心思路压缩比常见适用场景代表工具/方法优缺点简评LLM摘要/提炼式压缩Abstractive用LLM自己把历史对话/长文档总结成几句话或关键事实3–20×长对话、多轮Agent、文档问答LangChain Summary、LLMLingua的prompt压缩、Roo Code双重压缩效果最好但需要额外调用一次LLM成本稍高提取式压缩Extractive从原文中直接挑出最重要的句子/片段保留下来5–15×文档问答、RAGLLMLingua、Selective Context速度快、无幻觉风险但可能丢失连贯性基于困惑度/信息熵的硬删减计算每个token/句子对当前任务的“重要性”困惑度、自信息量低于阈值就删2–10×几乎所有长上下文场景LLMLingua系列、信息熵剪枝非常快几乎零额外推理成本但压缩过度容易丢关键信息滑动窗口 最近优先只保留最近N轮对话 少量关键历史摘要固定窗口聊天机器人、客服Agent绝大多数开源Agent框架默认策略实现最简单但老信息容易永久丢失2. 中间层/推理时压缩越来越流行2025–2026年主流方向软压缩Soft Prompt Compression把长上下文编码成少量“虚拟token”或concept embedding再喂给主模型。代表CompLLM分段独立压缩、可缓存、Gist tokens、AutoCompressor优点推理速度可提升2–4倍KV cache减半甚至更多目前多用于长文档问答QA over book / codebaseKV Cache压缩不压缩输入prompt只压缩推理过程中产生的key-value缓存量化FP8 → INT4 / NVFP4注意力相似性聚类 / 共享相似的token共享KV重要性驱逐eviction根据attention score动态扔掉不重要token的KV代表KVPress (NVIDIA)、H2O、SnapKV、Infini-attention的压缩记忆部分优点对用户无感知端到端提速明显内存占用可减50%以上3. 其他高级/特定领域方式代码专用压缩LongCodeZip粗粒度函数级 细粒度块级根据指令困惑度排序保留视觉/多模态压缩把长文本渲染成图片再OCRDeepSeek-OCR、Glyph或直接用视觉token表示2025年后很火的一条路线记忆外置 按需召回严格来说不算压缩但效果类似→ 把历史压缩成向量存向量库需要时RAG拉回来最常见于生产级Agent系统实际产品/框架里最常看到的组合策略2026年视角平时用滑动窗口 最近K轮兜底当token快满时比如占窗口90%以上自动触发LLM摘要压缩或LLMLingua式硬压缩对于特别长的文档/RAG场景优先用提取式 查询感知摘要query-aware summary如果部署在GPU上且追求极致性能再叠加KV cache量化 动态驱逐一句话总结目前工程界的共识“能用滑动窗口 摘要就先用能用困惑度硬删就别轻易上LLM摘要能上软压缩/KV压缩就尽量上能不让用户感知到压缩最好。”你现在是在做哪一类场景的长上下文优化聊天、RAG、Agent、代码、百万token文档……可以告诉我更具体的需求我可以给你更针对性的当前最佳实践。