Skip to content

English version →

Tegishli maʼruzalar: 9-maʼruza. Agentlarni vaqtidan oldin gʻalabani eʼlon qilishdan saqlash · 10-maʼruza. Faqatgina End-to-End testlash chinakam tekshiruvdir Andoza fayllari: templates/

Loyiha 05. Agentga oʻz ishini oʻzi tekshirishiga imkon bering

Nima qilasiz

Rollarni ajratishni (role separation) amalga oshiring — kod yozuvchi (generator), tekshiruvchi (evaluator), hamda ixtiyoriy ravishda rejalashtiruvchi (planner). Qoʻshilgan har bir turning taʼsirini oʻlchash uchun buni uch marta ishga tushirib koʻring.

Diqqatga sazovor boʻlgan biror funksiya yangilanishini tanlang (koʻp bosqichli suhbat, iqtibos panelini qayta dizayn qilish yoki hujjatlarni filtrlash) va uni barcha urinishlar davomida bir xil qilib saqlang.

Repodagi tayyor loyihadan foydalaning

Repo yoʻli: projects/project-05/

KatalogNimalar borNimani taqqoslash
starter/Project 04 asosidagi app, conversation history upgradeʼdan oldingi holat.Uch variantni qayta ishga tushirish uchun boshlangʻich nuqta.
solution/single-role/Bitta agent rejalaydi, implement qiladi va oʻzini baholaydi.evaluator-rubric.mddagi ball va nuqsonlar.
solution/gen-eval/Generator + evaluator, revision dalillari bor.evaluator-rubric.mddagi ball va revision notes.
solution/plan-gen-eval/Planner + generator + evaluator va sprint contract.sprint-contract.md hamda evaluator-rubric.mddagi yuqoriroq baho dalillari.

Vositalar

  • Claude Code yoki Codex
  • Git
  • Node.js + Electron

Harness mexanizmi

Oʻz-oʻzini tekshirish (Self-verification) + asoslangan Q&A (grounded Q&A) + dalilga asoslangan tugatish (evidence-based completion)