收藏必学!AI Agent上下文工程深度解析:Manus、Cursor、OpenAI等巨头技术方案横向对比

张开发
2026/5/30 10:28:44 15 分钟阅读
收藏必学!AI Agent上下文工程深度解析:Manus、Cursor、OpenAI等巨头技术方案横向对比
当前做 AI Agent 的公司无论 Manus、Cursor、Anthropic 还是 OpenAI本质上都在解决同一个问题LLM 应该什么时候看到什么信息信息应该如何组织。有意思的是这些公司都把自己的方案公开了——通过博客、SDK 文档、研究论文。每家公司从不同的约束出发走出了不同的方案。有些方案趋于一致有些甚至互相矛盾。这篇文章把各家的方案拆开来看做了横向对比总结出哪些技术正在成为行业标准哪些还在实验阶段。目录问题背景Manus六条生产原则2.1 背景2.2 六条原则Cursor动态上下文发现3.1 背景3.2 五种技术Anthropic注意力预算框架4.1 背景4.2 核心策略OpenAI会话记忆即基础设施5.1 背景5.2 三种模式Google长上下文赌注6.1 背景6.2 方案LangChain框架分类法7.1 背景7.2 四个操作方案对比矩阵8.1 上下文窗口管理8.2 信息检索8.3 规划与一致性8.4 多 Agent 与隔离8.5 记忆与健壮性总结9.1 共识9.2 争议9.3 未解决9.4 值得关注开放问题参考资料问题背景所有公司都面对同一个约束上下文窗口是有限的而 Agent 生成的 token 是指数级增长的。一个典型任务大概涉及 50 次工具调用。每次调用都会向上下文添加观察结果。没有干预的话窗口很快就会填满性能下降——这就是上下文腐烂context rot。各公司的叫法不同Anthropic 称之为注意力预算问题LangChain 用上下文窗口 RAM做类比但结论是一致的更聪明的上下文管理比更大的上下文窗口更重要。Manus六条生产原则2.1 背景Manus 服务数百万用户。典型任务平均 50 次工具调用输入与输出 token 比例是 100:1。他们重写了四遍 Agent 框架每次都是因为发现了更好的上下文塑形方式。他们把这个过程称为随机梯度下降。2.2 六条原则KV-Cache 是神圣的。缓存的 token 成本是 未缓存是3/MTok相差 10 倍。保持 prompt 前缀稳定日志只追加。即使重新排列 JSON 键名也会使缓存失效。用 Logit 屏蔽而非移除工具。所有工具永久加载。每步的可用性通过在解码时约束输出 token 概率来控制。上下文保持稳定只有行为约束在变。文件系统作为扩展记忆。大型观察写入文件只有轻量级引用留在上下文里。只要可逆压缩就 OK。通过背诵操作注意力。一个活的待办事项列表每步更新并重新阅读把当前目标放在高注意力区域上下文末尾。保留错误不清理。失败的操作留在上下文里用于隐式信念更新减少重复犯错。结构化变化防止固化。不同迭代使用不同的序列化模板和措辞防止模型陷入僵化的重复模式。Cursor动态上下文发现3.1 背景Cursor 在 2026 年 1 月的研究博客中描述了五种技术。核心发现是随着模型变强少给细节、让 Agent 自己拉上下文效果反而更好。他们用 A/B 测试数据支撑这个结论。3.2 五种技术文件作为工具输出接口。大型 JSON 响应写入文件。Agent 通过 tail/grep 增量读取。不做不必要的摘要。聊天历史文件实现无损压缩。完整历史在摘要前保存到文件。Agent 可以恢复任何丢失的细节——有损压缩变成了无损压缩。技能作为可发现文件。领域能力存为文件通过搜索发现不预加载到 system prompt 里。懒加载 MCP 工具。只预加载工具名称。按需获取完整定义。A/B 测试中减少了 46.9% 的 token。终端会话作为文件。Shell 历史变成可搜索的文件Agent grep 需要的内容。核心假设模型现在足够好知道自己需要什么上下文。Anthropic注意力预算框架4.1 背景Anthropic 在 2025 年 9 月发布了被很多人视为上下文工程奠基性的框架2026 年 1 月深入探讨了长时间运行的 Agent Harness2025 年 11 月研究了基于 MCP 的代码执行。这些工作都建立在构建 Claude Code 的基础上。4.2 核心策略System Prompt 的金发女孩区。Anthropic 发现了两种失败模式过度工程的 system prompt2K 词的 if-else 逻辑在边缘情况崩溃以及模糊的 prompt 如be helpful模型无所适从。他们的解决方案把 prompt 组织成清晰的部分XML 标签或 markdown 标题用典型示例展示预期行为让模型处理边缘情况而不是硬编码。即时检索。Agent 在运行时根据实际需要检索上下文正在从推理前 RAG 转向循环内检索。无重叠的精简工具。如果人类工程师说不出在给定情况下该用哪个工具模型也不行。工具应该是自包含且明确的。95% 时压缩。Claude Code 在窗口达到 95% 容量时自动摘要。对于长时间运行的 Agent一个初始化 Agent 写一个跨窗口持久化的全面需求文件200 特性。代码执行优于直接工具调用。对于多服务器的 MCPAgent 写代码调用工具而不是直接调用。定义留在文件系统里。两种失败模式Agent一杆进洞复杂项目在实现中途耗尽上下文以及压缩在跨窗口时信息传递不完整。解决方案文件系统里的结构化规划文件。OpenAI会话记忆即基础设施5.1 背景OpenAI 的方案记录在他们的 Agents SDK 和两份详细的 cookbook 中——一份关于短期会话记忆2025 年 9月一份关于长期上下文个性化2025 年 12 月。他们的贡献是面向框架的开发者可以直接采用的模式。5.2 三种模式截断。删除更早的轮次保留最后 N 个。简单、确定性、零延迟但会导致早期约束失忆。压缩。用单独的模型调用摘要更早的历史。摘要作为清洁室可以修正之前的错误。风险摘要漂移。基于状态的长期记忆。结构化状态对象profile notes跨会话持久化。每次运行提炼记忆 → 合并 notes → 注入状态优先级最新输入 → 会话 → 全局默认。关键区别OpenAI 把基于检索的记忆作为文档搜索过去交互与基于状态的记忆带优先级的结构化字段做了对比。基于状态的支持信念更新而非事实积累更可靠、更确定性。Google长上下文赌注6.1 背景Google 的方案与名单上的其他人都不同。其他公司专注于把正确的 token 塞进有限的窗口Google 押注富足——Gemini 模型提供高达 2M token 的上下文研究测试甚至到 10M。他们的 ReadAgent 论文2024为记忆压缩提供了互补的研究角度。6.2 方案“全放进去。”默认填满上下文窗口。RAG 和摘要是有限上下文模型的 workaround。证据Gemini 仅从上下文材料就学会了翻译 Kalamang不到 200 speakers。上下文缓存。通过缓存 API 减少高达 75% 的成本类似于 Manus 的 KV-cache 优化。渐进截断。压缩更早的上下文同时保持逻辑线程。ReadAgent - Gist Memory研究。把交互压缩成情景gist 记忆需要时查找原文。有效上下文增加 20 倍。模型人类阅读长文档的方式。多样本上下文学习。独特优势利用巨大的上下文窗口——数百/数千个样本在上下文里达到微调模型的表现。张力在于长上下文没有消除上下文工程但改变了它的样子。研究仍然显示上下文长度增加时性能下降 15-47%。LangChain框架分类法7.1 背景他们的贡献是分类学的——把别人的做法组织成连贯的框架基于他们的 LangGraph 实现和Deep Agents分析。7.2 四个操作写——把上下文保存在窗口外。草稿本、持久化状态对象、文件系统存储。例子Anthropic 的多 Agent 研究员把计划存到记忆里因为超过 200K token 的上下文会被截断。拉——拉取相关上下文。RAG、语义搜索、文件系统遍历grep/glob。挑战是在正确的时间检索正确的上下文不只是最语义相似的。压缩——只保留必要的 token。对话摘要、工具输出压缩。LangChain 测量到端到端摘要从 115K 减少到 60K token。隔离——跨 Agent 分割上下文。多 Agent 架构中子 Agent 有自己的上下文窗口防止上下文污染——无关细节在共享窗口里累积。No-op 工具作为上下文工程。他们的Deep Agents分析发现 Claude Code 的待办事项工具功能上什么都不做但它纯粹是一种上下文策略——强制 Agent 表述它的计划在长轨迹中保持正轨。方案对比矩阵图例[C] 核心差异化特性 [Y] 使用/倡导 [–] 公开未讨论 [alt] 同一问题的不同方案8.1 上下文窗口管理8.2 信息检索8.3 规划与一致性8.4 多 Agent 与隔离8.5 记忆与健壮性总结9.1 共识文件系统作为扩展记忆。动态优于静态检索。长时间任务用持久化计划文件。错误追踪保留不清理。9.2 争议工具过载怎么处理Manus 的 logit 屏蔽 vs Cursor 的懒加载——相反的策略都有效。长上下文 vs 精简上下文Google vs 其他所有人。用框架还是原始原语。9.3 未解决会话记忆没有两家公司做法相同。上下文工程评估没有标准 benchmark。Cursor 的 46.9% token 减少是少数公开的数据之一。何时隔离子 Agent 上下文 vs 共享仍然是纯经验性的。9.4 值得关注做出最好 Agent 的团队一直在简化。Manus 重写了五遍。每遍都在删除东西。如果你的 Agent harness 越来越复杂而模型越来越好那就有问题了。开放问题长上下文 vs 智能压缩——规模化后谁赢子 Agent 应该共享上下文还是只传递结果怎么评估上下文工程的质量最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。那0基础普通人如何学习大模型 深耕科技一线十二载亲历技术浪潮变迁。我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

更多文章