Skip to content

中文版本 →

Связанные лекции: Лекция 09. Не давайте агентам объявлять победу слишком рано · Лекция 10. Только полный прогон пайплайна считается настоящей верификацией Файлы шаблонов: templates/

Проект 05. Заставьте агента самостоятельно проверять свою работу

Что вы делаете

Реализуйте разделение ролей — генератор, который пишет код, evaluator, который ревьюит, и опционально планировщик. Запустите трижды, чтобы измерить эффект каждой добавленной роли.

Выберите содержательную фичу-апгрейд (многоходовой диалог, редизайн панели цитирования или фильтрация документов) и удерживайте её одинаковой во всех запусках.

Используйте проект из репозитория

Путь: projects/project-05/

КаталогЧто внутриЧто сравнивать
starter/Приложение на базе Project 04 до добавления истории диалога.Стартовая точка для повторного запуска трёх вариантов.
solution/single-role/Один агент планирует, реализует и сам себя оценивает.Оценка и дефекты в evaluator-rubric.md.
solution/gen-eval/Generator + evaluator с доказательствами правок.Оценка и заметки ревизии в evaluator-rubric.md.
solution/plan-gen-eval/Planner + generator + evaluator со sprint contract.sprint-contract.md и более высокая оценка в evaluator-rubric.md.

Инструменты

  • Claude Code или Codex
  • Git
  • Node.js + Electron

Механизм harness

Самопроверка + Q&A с обоснованием + завершение по доказательствам