Zugehörige Lektionen: Lektion 09. Agenten daran hindern, zu früh Erfolg zu melden · Lektion 10. Nur ein vollständiger Pipeline-Lauf zählt als echte Verifikation Vorlagendateien: templates/

Projekt 05. Den Agenten seine eigene Arbeit verifizieren lassen

Was du tust

Implementiere Rollentrennung: einen generator für die Umsetzung, einen evaluator für die Prüfung und optional einen planner. Führe drei Läufe durch, um den Effekt jeder zusätzlichen Rolle zu messen.

Wähle eine substanzielle Feature-Erweiterung, etwa Multi-Turn-Konversation, Neugestaltung des Zitat-Panels oder Dokumentfilterung, und halte sie über alle Läufe hinweg konstant.

Nutze das eingecheckte Projekt

Repository-Pfad: projects/project-05/

Verzeichnis	Inhalt	Vergleichspunkt
`starter/`	Project-04-basierte App vor dem Upgrade für Gesprächshistorie.	Ausgangspunkt, wenn du die drei Varianten selbst erneut ausführen willst.
`solution/single-role/`	Ein Agent plant, implementiert und bewertet sich selbst.	Bewertung und Defektliste in `evaluator-rubric.md`.
`solution/gen-eval/`	Generator + Evaluator mit Revisionsnachweis.	Bewertung und Revisionsnotizen in `evaluator-rubric.md`.
`solution/plan-gen-eval/`	Planner + Generator + Evaluator mit Sprint Contract.	`sprint-contract.md` und höhere Bewertungsnachweise in `evaluator-rubric.md`.

Werkzeuge

Claude Code oder Codex
Git
Node.js + Electron

Harness-Mechanismus

Selbstverifikation + begründete Q&A + evidenzbasierter Abschluss

Projekt 05. Den Agenten seine eigene Arbeit verifizieren lassen ​

Was du tust ​

Nutze das eingecheckte Projekt ​

Werkzeuge ​

Harness-Mechanismus ​

Projekt 05. Den Agenten seine eigene Arbeit verifizieren lassen

Was du tust

Nutze das eingecheckte Projekt

Werkzeuge

Harness-Mechanismus