为什么 Harness Engineering 正在成为 AI Agent 的真正护城河

PROBLEM

问题不在模型不够强，而在模型离“完成任务”还隔着一整套系统

过去一年里，大模型在单步能力上进步得非常快：写代码、改 bug、解释报错、生成 UI、读文档、做总结，这些能力都在明显抬升。于是很多人会自然地觉得，下一步只要模型再强一点，Agent 就会自动变得可靠。

但现实正好相反。任务越长、越复杂、越接近真实软件工程，问题就越不在“这一步答得好不好”，而在“整个链路能不能稳定推进”。

任务需要跨多个阶段：研究、规划、实现、测试、修复、验证；
任务需要跨多个工具环境：终端、浏览器、文件系统、知识库、文档；
任务需要跨多个上下文窗口：今天做一半，明天继续，甚至多次切 session；
任务需要对中间产物不断做质量判断，而不是只看最后一句“Done”。

这就是为什么“模型更强”并没有自动解决 Agent 的稳定性交付问题。因为从单步能力到长期交付，中间还差一整套系统，而这套系统就是 Harness。

模型回答的是“下一步怎么做”，Harness 决定的是“这件事最终能不能做成”。

ANTHROPIC

Anthropic 最新工程文章，实际上把 Harness 的核心问题讲得很透

Anthropic 最近那篇 Harness design for long-running application development 的价值，不在于又讲了一次“我们用了多智能体”，而在于它把一个长期被模糊化的问题说清楚了：当任务长到会跨 context window、跨多轮 session、跨多个开发阶段时，必须把连续性从模型记忆里拿出来，迁移到结构化工件里。

从搜索结果和多方转述里，这篇文章至少给出了几个非常关键的点：

点 01

上下文压缩不等于真正解决了长期任务问题

Anthropic 明确提到，context resets + structured handoffs 在很多场景里比单纯 compaction 更有效。也就是说，真正重要的不是把旧上下文越压越短，而是敢于清空上下文，然后用结构化交接重新开始。

点 02

进展不应该活在模型脑子里

进度必须落到文件、工件、feature list、交接文档、可验证状态中。否则一旦 session 变长，模型就会出现“上下文焦虑”——开始仓促收尾、提前宣称完成，或者把不确定当成确定。

点 03

生成者与评估者应该结构分离

文章里把 generator-evaluator loop 直接映射到软件开发流程：生成相当于实现，评估相当于 code review / QA。这个映射很重要，因为它说明评估不是附加动作，而是结构角色。

点 04

Definition of Done 要在生成前谈清楚

一些二次解读提到“contract negotiation”“definition of done upfront”。这非常像真实工程里的规格定义：先讲清楚什么算完成，再开始做，避免生成者边做边改目标。

这篇文章其实做了一件很关键的事：它把长期以来人们对 Agent 的模糊想象，拉回到了工程现实。不是“给它更多上下文就行”，也不是“给它更强模型就行”，而是你必须为它建立可重启、可交接、可评估、可持续推进的执行结构。

另一个有意思的边界是：社区转述里还提到，随着更强模型和超长上下文出现，某些早期复杂 Harness 组件可能会被移除。这意味着 Harness 不是越复杂越好，而是要随着模型能力变化持续重估。

PAPERS & BENCHMARKS

论文和 benchmark 给出的，是为什么“系统设计”不能被忽略的硬证据

如果 Anthropic 的文章偏工程经验，那么学术线索则提供了另一个角度：即使在统一 scaffold 下，长链软件工程任务依然很难，这说明问题不是一句“模型不够强”能解释的。

SWE-agent：Agent-Computer Interface 本身就能显著改变结果

SWE-agent 这篇工作很重要，不只是因为它做了一个 coding agent，而是因为它提出了 ACI（Agent-Computer Interface） 的概念。论文的一个核心结论是：即便不改底层模型，只要把 Agent 和环境交互的接口设计好，性能就会明显提升。

这其实已经在学术语言里说明了一个事实：模型外的系统设计，本身就是能力来源。 ACI 是 Harness 的一个子集，而这恰恰证明，Agent 能力从来都不是纯模型函数。

SWE-Bench Pro / 长链软件工程基准：长任务仍然很难

而像 SWE-Bench Pro 这类面向长任务的软件工程基准，则告诉我们另一个更直接的现实：在统一 scaffold 下，主流 coding model 在长程软件工程任务上的表现依然不高。搜索结果中的描述提到，在统一框架下，广泛使用的模型在这类任务上的 Pass@1 依然偏低，最高模型也没有高到可以“放心自动交付”。

这件事的意义非常大。它意味着什么？意味着哪怕模型已经很强，一旦任务进入长链、跨文件、跨阶段、需要自我验证和长期规划的软件工程环境，单纯依赖模型本身仍远远不够。

也就是说，论文和基准没有削弱 Harness 的重要性，反而强化了它：模型的上限已经不低，但长任务成绩仍然吃力，说明真正缺的正是系统性支撑。

如果 benchmark 证明长链任务依旧困难，那结论不是“Agent 没前途”，而是“Agent 需要比聊天机器人复杂得多的工程结构”。

COMMUNITY

社区热门讨论为什么也在往同一个方向收敛？

如果只看论文和官方博客，你可能会觉得这是少数公司在讲工程细节。但社区最近几周的热门讨论，实际上也在用更草根、更实战的方式重复同一个判断。

社区线索 01

大家都在做 subagent / review agent

这说明单 Agent 包办一切已经不够稳。研究、编码、审查、修复开始被主动拆开。

社区线索 02

tmux / 多窗口协作突然变热

这不是偶然热梗，而是说明很多人已经开始把“终端本身”当作多智能体消息总线。

社区线索 03

Skills / SOP / Review loop 被不断产品化

说明经验不再停留在“高手技巧”，而开始被做成可复用资产。

最近你收藏的那些帖子——无论是“手搓自用 coding agent”“用 Codex review Claude”“tmux 当消息总线”“harness-creator 技能”“idea file / AI knowledge base”——它们表面上关键词不同，但内核一致：大家都在试图把模型装进一个更可控、更能连续完成任务的系统里。

这也是为什么我认为这不是偶发话题，而是结构性趋势。真正重要的不是某一个工具名，而是社区已经开始普遍意识到：Agent 的问题不能只靠 prompt 解，得靠系统解。

HARNESS LAYERS

如果把 Harness 真正拆开，它至少有五层结构

任务分解层：把长任务切成可推进、可验收的阶段，而不是一把梭到底。
状态管理层：让任务进展活在文件、日志、feature list、handoff artifact 里，而不是只活在上下文窗口里。
角色协作层：研究、实现、审查、验证尽量分离，不让同一个 Agent 持续兼任所有角色。
验证闭环层：通过测试、浏览器检查、diff 审核、日志回读、人工 gate 等方式建立反馈。
技能沉淀层：把一次性的有效经验提炼成 Skill、模板、SOP、策略规则，形成系统记忆。

这五层并不要求一次到位，但它们勾勒出一个关键事实：Harness 绝不是 Prompt 包装器，而是一套完整的执行体系。谁把这五层做得越清楚，谁的 Agent 就越接近“能持续做事”而不是“偶尔答对”。

MOAT

为什么它会成为真正护城河，而不是暂时热词？

因为模型会趋同，系统不会。

未来一年，模型还会继续进步，供应商还会继续轮换，价格和榜单也会继续变化。但真正难复制的东西并不是“你今天用的是哪个模型”，而是这些问题的答案：

你如何拆解复杂任务？
你如何定义完成标准？
你如何做结构化交接？
你如何让多个角色协作而不失控？
你如何让失败可恢复、经验可复用？

这些能力一旦沉淀到产品、团队流程、个人工作流里，就不会像模型供应商那样轻易被替换。换句话说，模型是流动性的，Harness 是沉淀性的。

模型进步提高的是天花板，Harness 提高的是地板。真正决定能否稳定落地的，往往是地板，而不是天花板。

JUDGEMENT

最后的判断：未来竞争不在模型本身，而在谁更会搭那套让模型真正做成事的系统

把 Anthropic 的工程经验、SWE-agent 的学术结论、SWE-Bench Pro 这类 benchmark、以及社区最近高密度的实战讨论放在一起看，我认为可以得出一个很稳的结论：

Harness Engineering 正在从“高手技巧”变成 AI Agent 时代的基础设施问题。

它之所以重要，不是因为它听起来高级，而是因为它正好处在模型能力和现实任务之间的断层带上。只要这个断层还在，Harness 就会持续有价值。

而且随着模型变强，Harness 不会消失，只会演化：某些为了弥补模型短板而存在的结构会被简化，但任务拆分、验证闭环、权限控制、结构化交接、经验沉淀这些更底层的问题不会消失。

所以如果把这篇文章压缩成一句话，那就是：

模型是燃料，Harness 才是发动机。未来真正拉开差距的，不是谁先拿到更强的模型，而是谁先把那台发动机做出来。

SOURCES

这篇文章主要参考的材料与线索

Anthropic Engineering：Harness design for long-running application development

核心线索包括：context reset + structured handoff、generator-evaluator loop、definition of done、长期任务中的结构化工件与多阶段推进。

官方工程文章·2026-03 / 2026-04 社区热议

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

证明 Agent-Computer Interface 的设计本身就能显著影响自动化软件工程表现，为“模型外系统同样是能力来源”提供研究支撑。

NeurIPS 2024·ACI / scaffold 设计

SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

长链软件工程 benchmark 说明：即使模型很强，统一 scaffold 下的长程任务依然困难，这反过来强调了 Harness 的必要性。

2025·long-horizon benchmark

参考与延伸

文章信息

2026-04-07 · 13 分钟阅读

研究 · AI Agent 系统

主题标签

Anthropic · AI Agent · Harness

继续阅读

返回 AI Agent 系统

按时间看全部文章

按专题连续阅读