栏目角色
围绕工程文章、论文、benchmark 与系统方法做深度论证。
研究文章
按发布时间倒序排列,方便快速扫读这一栏目的全部内容。
我是怎样使用 AI 来做 Code Review 的?
Vikingz 用 TinyShip 这个多 app、多数据库 monorepo 的真实经验,拆解一套 AI code review 流程:多模型交叉审查、人工筛选、分离 fix/verify 角色,再用测试闭环,把 AI 写出来的大 diff 变成可控的工程流程。
1M 上下文之后,Claude Code 真正卖的不是 token,而是 session runtime
1M 上下文很重要,但 Claude Code 真正拉开差距的,不是 token 数,而是 session runtime 管理:什么时候 clear、compact、rewind、checkpoint,什么时候把任务切给 subagent。
共享状态面不是 Feature,而是基础设施:多 Agent 协作为什么会走向 memory fabric
多 Agent 协作的问题不再只是消息传递,而是缺少一层可恢复、可分层、可控作用域的共享状态面。本文把 smux、tmux-bridge、mem0 这些线索收束到同一个判断:memory fabric 正在变成基础设施。
Memory 不是插件,而是主权边界:Agent Harness 为什么会变成新的锁定层
从 Harrison Chase 的《Your harness, your memory》出发,分析 Agent 时代新的平台锁定点为何正在从模型 API 下沉到 harness 对 context、state 与 memory 的控制权。
Agent Runtime 正在变成新的操作系统
从 Anthropic、OpenAI、LangGraph、Google A2A 到社区实验,分析 AI Agent 的竞争为何正在从 prompt 能力下沉到 runtime、状态、接口与协作层。
为什么 Harness Engineering 正在成为 AI Agent 的真正护城河
把趋势、工程文章、benchmark 与社区讨论压进同一篇论证里,回答 Harness 为什么会变成核心系统能力。
Karpathy 的 LLM Wiki 是什么,为什么它代表了一种全新的个人知识管理范式
深度解析 Karpathy 的 idea file 模式,回答为什么正确使用大模型的方式不是问答,而是编译,以及 Markdown Wiki 为什么能打败传统 RAG。
上下文管理不是 token 技术细节,而是 AI Agent 的系统设计问题
从 idea file、AI 知识库、structured handoff 到长期交接,分析上下文管理为什么本质上是状态系统设计。
Anthropic 这篇 Harness 文章真正讲了什么:长任务应用开发的系统设计方法
不是转述原文,而是单独拆开这篇 engineering 文章的系统设计思想,分析它到底解决了什么问题。