Skip to content

中文版本 →

Leçons liées : Leçon 09. Empêcher les agents de déclarer la victoire trop tôt · Leçon 10. Seule une exécution de pipeline complet compte comme vraie vérification Fichiers modèles : templates/

Projet 05. Faire vérifier son propre travail par l'agent

Ce que vous faites

Implémentez la séparation des rôles : un generator qui implémente, un evaluator qui relit, et éventuellement un planner. Exécutez trois fois pour mesurer l'effet de chaque rôle ajouté.

Choisissez une amélioration substantielle de fonctionnalité, comme une conversation multi-tour, une refonte du panneau de citations ou un filtrage de documents, et gardez-la identique dans toutes les exécutions.

Utiliser le projet fourni

Chemin dans le dépôt : projects/project-05/

DossierContenuÀ comparer
starter/Application basée sur Project 04 avant l'ajout de l'historique conversationnel.Point de départ pour relancer les trois variantes.
solution/single-role/Un agent planifie, implémente et s'auto-évalue.Score et défauts dans evaluator-rubric.md.
solution/gen-eval/Générateur + évaluateur avec preuve de révision.Score et notes de révision dans evaluator-rubric.md.
solution/plan-gen-eval/Planner + générateur + évaluateur avec sprint contract.sprint-contract.md et preuves de score plus élevé dans evaluator-rubric.md.

Outils

  • Claude Code ou Codex
  • Git
  • Node.js + Electron

Mécanisme de harness

Auto-vérification + Q&A fondé sur des sources + finalisation basée sur des preuves