Sesi 11.5: Scoring Kualitas

Kursus → Modul 11: Quality Control & Gerbang Manusia

Sesi 5 dari 7

Dari "Ini Rasanya Udah Bener" ke "Ini Skornya 38"

Penilaian kualitas subjektif ga bisa diskalakan. Ketika kamu satu-satunya reviewer, "aku tahu yang bagus kalo lihat" itu jalan. Ketika kamu tambah reviewer kedua, definisi kalian mulai beda. Ketika kamu batch-produce 20 tulisan per minggu, standar kamu mulai drift. Rubrik memperbaiki ini dengan meng-encode standar kualitas kamu ke dimensi yang bisa diukur.

The New York Times membangun persis framework seperti ini. Tool internal mereka, Stet, mengkodifikasi pengetahuan editorial institusional ke rubrik konkret untuk menykor copy AI-generated. Prinsipnya universal: kalo kamu bisa mendefinisikan apa arti kualitas dalam angka, kamu bisa menegakkannya secara konsisten.

Rubrik Kualitas: Framework scoring dengan dimensi yang terdefinisi, masing-masing dinilai pada skala tetap, yang mengubah penilaian editorial subjektif jadi angka yang bisa diulang dan diaudit. Rubrik meng-encode standar kamu supaya bertahan dari perubahan mood, kelelahan, dan reviewer.

Lima Dimensi Scoring

Rubrik kamu harus punya 5 dimensi. Kurang dari 5 dan kamu melewatkan sinyal kualitas penting. Lebih dari 7 dan rubriknya jadi beban yang reviewer skip. Lima itu optimal secara praktis.

Dimensi di bawah ini adalah titik awal. Modifikasi sesuai tipe konten kamu.

Dimensi	Apa yang Diukur	Skor 10	Skor 0
Akurasi	Ketepatan faktual semua klaim yang bisa diverifikasi	Setiap klaim terverifikasi, sumber dicantumkan, ga ada halusinasi	Banyak fakta fabrikasi, sumber karangan, angka salah
Konsistensi Voice	Kecocokan dengan profil voice target	Ga bisa dibedakan dari tulisan natural penulisnya	Voice AI generik tanpa personality marker
Kejelasan Struktural	Alur logis, organisasi bagian, progresi argumen	Tiap bagian membangun di atas sebelumnya, transisi jelas, ga ada redundansi	Urutan paragraf acak, ide diulang, ga ada argumen koheren
Orisinalitas Insight	Keberadaan ide yang ga bisa dihasilkan dengan prompting model manapun	Mengandung pengetahuan praktisi, contoh spesifik, dan posisi yang hanya bisa diambil penulisnya	Sepenuhnya nasihat generik yang tersedia di hasil pencarian manapun
Ketiadaan Artefak AI	Bebas dari 15 marker forensik (skala terbalik)	Nol marker AI terdeteksi	Lebih dari 10 marker hadir di seluruh tulisan

Matriks Aksi Scoring

Skor tanpa aksi itu pajangan. Setiap rentang skor dipetakan ke aksi editorial spesifik.

flowchart LR A["Skor Konten
(5 dimensi × 0-10)"] --> B{Total Skor?} B -->|"40-50"| C["Publish
Proofread ringan saja"] B -->|"30-39"| D["Rework
Edit tertarget di dimensi lemah"] B -->|"20-29"| E["Revisi Besar
Overhaul struktur dan voice"] B -->|"Di bawah 20"| F["Regenerate
Revisi prompt diperlukan"] style C fill:#6b8f71,color:#111 style D fill:#c8a882,color:#111 style E fill:#c47a5a,color:#111 style F fill:#c47a5a,color:#111

Rentang Skor	Aksi	Investasi Waktu Tipikal	Output yang Diharapkan
40-50	Publish setelah proofread	5-10 menit	Siap untuk audiens
30-39	Rework tertarget di dimensi skor terendah	20-40 menit	Bisa dipublish setelah review kedua
20-29	Revisi besar: restrukturisasi, injeksi voice, verifikasi fakta	45-90 menit	Mungkin bisa dipublish; pertimbangkan regenerasi
Di bawah 20	Buang dan regenerate dengan prompt yang direvisi	Waktu regenerasi + siklus review baru	Output baru dari prompt yang diperbaiki

Kalibrasi

Rubrik cuma berguna kalo menghasilkan skor yang konsisten. Untuk kalibrasi, skor 5 konten yang kamu udah tahu kualitasnya: satu tulisan terbaik kamu sendiri, satu tulisan yang kamu kagumi dari orang lain, satu output AI yang bagus, satu output AI yang biasa aja, dan satu slop yang jelas-jelas jelek.

Tulisan terbaik kamu harus skor 40+. Tulisan yang dikagumi harus skor 40+. Output AI bagus harus skor 28-35. Output AI biasa aja harus skor 18-27. Slop yang jelas harus skor di bawah 18.

Kalo skor-nya ga cocok dengan ranking kualitas intuitif kamu, sesuaikan rubriknya. Entah definisi dimensinya salah, anchor skalanya salah, atau kamu membobot dimensi secara ga tepat. Kalibrasi itu iteratif. Ekspektasi 2-3 ronde sebelum rubrik secara andal cocok dengan penilaian kamu.

Menggunakan Rubrik di Production

Setiap konten yang keluar dari pipeline kamu harus punya score card terlampir. Ga disimpan terpisah, ga diingat samar-samar, tapi dicatat bersama kontennya di log sederhana. Seiring waktu, log ini mengungkap pola: tipe konten mana yang konsisten skor rendah, template prompt mana yang menghasilkan skor tertinggi, dan apakah kualitas kamu membaik atau menurun seiring scaling.

Search Quality Evaluator Guidelines milik Google sendiri menggunakan pendekatan serupa. Quality rater manusia mengevaluasi hasil pencarian terhadap rubrik yang terdefinisi dengan kriteria spesifik untuk setiap level rating. E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) itu rubrik. Rubrik kamu adalah padanan untuk produksi konten.

Tugas

Bangun rubrik kualitas kamu. Definisikan 5 dimensi scoring yang relevan dengan tipe konten kamu (boleh pakai yang di sesi ini atau buat sendiri). Untuk setiap dimensi, definisikan seperti apa skor 10 dan seperti apa skor 0. Skor 5 konten dengan kualitas bervariasi. Kalo skor-nya ga cocok dengan ranking intuitif kamu, sesuaikan rubrik dan skor lagi. Ulangi sampai angkanya mencerminkan realitas.

Scoring Kualitas