上下文不够时，最先该做 RAG 还是摘要？

如果你的问题需要“查事实/查文档”，优先做 RAG；如果你的问题更像“延续对话/压缩历史”，优先做摘要。多数生产系统最终会做混合：短期用滑窗 + 摘要，外部知识用 RAG。

直接扩大上下文窗口是不是更省事？

扩窗能缓解短期痛点，但会带来 token 成本、时延和噪声注入问题，还可能因为“上下文污染”让质量变差。通常需要配合检索、压缩或阶段总结，才能在长任务里稳定。

摘要会不会把关键信息丢掉？

会。摘要的核心风险就是信息损失与偏置，所以要做“可回溯”：保留原始片段索引、摘要质量评估、以及当摘要不足时回退到检索或原文片段。

RAGSummarization上下文工程Agent成本优化

上下文窗口不够怎么办：RAG 与摘要链路的工程对比

上下文窗口不够时，常见解法是“加检索”(RAG) 或“做摘要”(Summarization)，也有人直接截断/滑窗硬扛。本文用工程视角对比三条链路的准确率、成本、时延与可观测性，并给出可落地的选型与混合架构建议。

2026年3月4日

Synthly 团队

预计阅读 12 分钟

📷 Photo by Nikolaos Dimou via Pexels

你遇到的不是“窗口不够”，而是“信息预算不够”

当对话变长、任务变复杂，你会看到这些现象：

模型开始忘记早先约束（例如“不要改动第 3 步”）
细节被覆盖（例如“客户 A 和客户 B 的 SLA 不同”）
召回变随机：有时能答对，有时像没看过一样

这不是单纯的“上下文窗口太小”。更准确的说法是：你有一个固定 token 预算，要在“保留多少信息”和“保持多少信噪比”之间做取舍。

在工程上，常见的三种办法是：

截断/滑窗：只保留最近的对话
摘要链路：把历史压缩成更短的表示
RAG 链路：把历史或外部知识放到可检索存储里，按需取回

下面用“链路视角”把它们讲清楚。

一、三条链路的最小实现长什么样

1）截断/滑窗：最低成本，但最容易“忘规矩”

适用场景：短对话、弱约束、信息主要集中在最近几轮。

最小实现（伪代码）：

function buildPromptWithWindow(messages: Message[], maxTurns = 12) {
  return messages.slice(-maxTurns);
}

它的优点是简单、便宜、可预测；缺点是：

忘掉早期约束与关键事实
长任务阶段切换时容易跑偏

如果你只能做一件事来提升它：把“不可丢的约束”单独提取为系统约束（System/Policy），不要和对话混在一起。

2）摘要链路：把“对话历史”变成“可续写的状态”

适用场景：对话连续性很重要；你需要把长会话压缩成“当前状态”。

最小实现：

把对话分段（例如每 20 轮或每 8k tokens）
对每段做摘要
用“摘要 + 最近滑窗”拼出下一次 prompt

type SummaryChunk = {
  fromTurn: number;
  toTurn: number;
  summary: string;
  createdAt: string;
};

function buildPromptWithSummary(recent: Message[], summaries: SummaryChunk[]) {
  const longTerm = summaries
    .map((s) => `【阶段摘要 ${s.fromTurn}-${s.toTurn}】\n${s.summary}`)
    .join('\n\n');
  return [
    { role: 'system', content: '你是一个严格遵循约束的助手。' },
    { role: 'system', content: longTerm },
    ...recent,
  ];
}

摘要链路的本质是把历史“压缩成状态”。它的最大风险是信息损失：一旦摘要把关键约束写错/写丢，后续会持续偏离。

3）RAG 链路：把“信息”从对话里搬到索引里

适用场景：问题需要引用事实、文档、代码、规范；或历史信息量巨大但只需按需召回。

最小实现：

把对话片段、文档片段做 chunk
生成向量 + 元数据
查询时检索 top-k，再把片段塞回 prompt

RAG 的典型 prompt 结构：

系统约束
用户问题
检索到的证据片段（带来源）
生成要求（格式/字段）

RAG 的最大风险不是“不会检索”，而是：

检索不到（召回率低）
检索到不该要的（误召回污染）
检索到但不会用（生成阶段忽略证据）

二、工程对比：准确率、成本、时延、可观测性

下面这张表给你一个直觉（不是绝对结论，目的是帮助选型）：

方案	质量上限	质量下限	成本	时延	主要风险	最需要的“治理组件”
截断/滑窗	中	低	低	低	忘约束、丢事实	约束抽取 + 关键事实卡片
摘要链路	中-高	中	中	中	信息损失、偏置累积	分段策略 + 摘要评测 + 可回溯
RAG 链路	高	中	中-高	中-高	误召回、证据缺失	召回评测 + 重排 + 引用约束