研究

围绕工程文章、论文、benchmark 与系统方法做深度论证。

9 篇文章·栏目索引

研究

围绕工程文章、论文、benchmark 与系统方法做深度论证。

Category Index

研究文章

按发布时间倒序排列，方便快速扫读这一栏目的全部内容。

Vikingz 用 TinyShip 这个多 app、多数据库 monorepo 的真实经验，拆解一套 AI code review 流程：多模型交叉审查、人工筛选、分离 fix/verify 角色，再用测试闭环，把 AI 写出来的大 diff 变成可控的工程流程。

1M 上下文很重要，但 Claude Code 真正拉开差距的，不是 token 数，而是 session runtime 管理：什么时候 clear、compact、rewind、checkpoint，什么时候把任务切给 subagent。

多 Agent 协作的问题不再只是消息传递，而是缺少一层可恢复、可分层、可控作用域的共享状态面。本文把 smux、tmux-bridge、mem0 这些线索收束到同一个判断：memory fabric 正在变成基础设施。

从 Harrison Chase 的《Your harness, your memory》出发，分析 Agent 时代新的平台锁定点为何正在从模型 API 下沉到 harness 对 context、state 与 memory 的控制权。

从 Anthropic、OpenAI、LangGraph、Google A2A 到社区实验，分析 AI Agent 的竞争为何正在从 prompt 能力下沉到 runtime、状态、接口与协作层。

把趋势、工程文章、benchmark 与社区讨论压进同一篇论证里，回答 Harness 为什么会变成核心系统能力。

深度解析 Karpathy 的 idea file 模式，回答为什么正确使用大模型的方式不是问答，而是编译，以及 Markdown Wiki 为什么能打败传统 RAG。

从 idea file、AI 知识库、structured handoff 到长期交接，分析上下文管理为什么本质上是状态系统设计。

不是转述原文，而是单独拆开这篇 engineering 文章的系统设计思想，分析它到底解决了什么问题。