Scoring Kualitas
Sesi 11.5 · ~5 menit baca
Dari "Ini Rasanya Udah Bener" ke "Ini Skornya 38"
Penilaian kualitas subjektif ga bisa diskalakan. Ketika kamu satu-satunya reviewer, "aku tahu yang bagus kalo lihat" itu jalan. Ketika kamu tambah reviewer kedua, definisi kalian mulai beda. Ketika kamu batch-produce 20 tulisan per minggu, standar kamu mulai drift. Rubrik memperbaiki ini dengan meng-encode standar kualitas kamu ke dimensi yang bisa diukur.
The New York Times membangun persis framework seperti ini. Tool internal mereka, Stet, mengkodifikasi pengetahuan editorial institusional ke rubrik konkret untuk menykor copy AI-generated. Prinsipnya universal: kalo kamu bisa mendefinisikan apa arti kualitas dalam angka, kamu bisa menegakkannya secara konsisten.
Rubrik Kualitas: Framework scoring dengan dimensi yang terdefinisi, masing-masing dinilai pada skala tetap, yang mengubah penilaian editorial subjektif jadi angka yang bisa diulang dan diaudit. Rubrik meng-encode standar kamu supaya bertahan dari perubahan mood, kelelahan, dan reviewer.
Lima Dimensi Scoring
Rubrik kamu harus punya 5 dimensi. Kurang dari 5 dan kamu melewatkan sinyal kualitas penting. Lebih dari 7 dan rubriknya jadi beban yang reviewer skip. Lima itu optimal secara praktis.
Dimensi di bawah ini adalah titik awal. Modifikasi sesuai tipe konten kamu.
| Dimensi | Apa yang Diukur | Skor 10 | Skor 0 |
|---|---|---|---|
| Akurasi | Ketepatan faktual semua klaim yang bisa diverifikasi | Setiap klaim terverifikasi, sumber dicantumkan, ga ada halusinasi | Banyak fakta fabrikasi, sumber karangan, angka salah |
| Konsistensi Voice | Kecocokan dengan profil voice target | Ga bisa dibedakan dari tulisan natural penulisnya | Voice AI generik tanpa personality marker |
| Kejelasan Struktural | Alur logis, organisasi bagian, progresi argumen | Tiap bagian membangun di atas sebelumnya, transisi jelas, ga ada redundansi | Urutan paragraf acak, ide diulang, ga ada argumen koheren |
| Orisinalitas Insight | Keberadaan ide yang ga bisa dihasilkan dengan prompting model manapun | Mengandung pengetahuan praktisi, contoh spesifik, dan posisi yang hanya bisa diambil penulisnya | Sepenuhnya nasihat generik yang tersedia di hasil pencarian manapun |
| Ketiadaan Artefak AI | Bebas dari 15 marker forensik (skala terbalik) | Nol marker AI terdeteksi | Lebih dari 10 marker hadir di seluruh tulisan |
Matriks Aksi Scoring
Skor tanpa aksi itu pajangan. Setiap rentang skor dipetakan ke aksi editorial spesifik.
(5 dimensi × 0-10)"] --> B{Total Skor?} B -->|"40-50"| C["Publish
Proofread ringan saja"] B -->|"30-39"| D["Rework
Edit tertarget di dimensi lemah"] B -->|"20-29"| E["Revisi Besar
Overhaul struktur dan voice"] B -->|"Di bawah 20"| F["Regenerate
Revisi prompt diperlukan"] style C fill:#6b8f71,color:#111 style D fill:#c8a882,color:#111 style E fill:#c47a5a,color:#111 style F fill:#c47a5a,color:#111
| Rentang Skor | Aksi | Investasi Waktu Tipikal | Output yang Diharapkan |
|---|---|---|---|
| 40-50 | Publish setelah proofread | 5-10 menit | Siap untuk audiens |
| 30-39 | Rework tertarget di dimensi skor terendah | 20-40 menit | Bisa dipublish setelah review kedua |
| 20-29 | Revisi besar: restrukturisasi, injeksi voice, verifikasi fakta | 45-90 menit | Mungkin bisa dipublish; pertimbangkan regenerasi |
| Di bawah 20 | Buang dan regenerate dengan prompt yang direvisi | Waktu regenerasi + siklus review baru | Output baru dari prompt yang diperbaiki |
Kalibrasi
Rubrik cuma berguna kalo menghasilkan skor yang konsisten. Untuk kalibrasi, skor 5 konten yang kamu udah tahu kualitasnya: satu tulisan terbaik kamu sendiri, satu tulisan yang kamu kagumi dari orang lain, satu output AI yang bagus, satu output AI yang biasa aja, dan satu slop yang jelas-jelas jelek.
Tulisan terbaik kamu harus skor 40+. Tulisan yang dikagumi harus skor 40+. Output AI bagus harus skor 28-35. Output AI biasa aja harus skor 18-27. Slop yang jelas harus skor di bawah 18.
Kalo skor-nya ga cocok dengan ranking kualitas intuitif kamu, sesuaikan rubriknya. Entah definisi dimensinya salah, anchor skalanya salah, atau kamu membobot dimensi secara ga tepat. Kalibrasi itu iteratif. Ekspektasi 2-3 ronde sebelum rubrik secara andal cocok dengan penilaian kamu.
Menggunakan Rubrik di Production
Setiap konten yang keluar dari pipeline kamu harus punya score card terlampir. Ga disimpan terpisah, ga diingat samar-samar, tapi dicatat bersama kontennya di log sederhana. Seiring waktu, log ini mengungkap pola: tipe konten mana yang konsisten skor rendah, template prompt mana yang menghasilkan skor tertinggi, dan apakah kualitas kamu membaik atau menurun seiring scaling.
Search Quality Evaluator Guidelines milik Google sendiri menggunakan pendekatan serupa. Quality rater manusia mengevaluasi hasil pencarian terhadap rubrik yang terdefinisi dengan kriteria spesifik untuk setiap level rating. E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) itu rubrik. Rubrik kamu adalah padanan untuk produksi konten.
Further Reading
- Inside The New York Times's A.I. Toolkit, Investigative Reporters and Editors (2025)
- Google AI Content Guidelines: Complete 2026 Guide, Koanthic
- IMPRESS Best Practice Note: The Use of Artificial Intelligence (April 2025)
- Google Quality Raters Update 2025 Checks AI-Generated Content, SlideShare
Tugas
Bangun rubrik kualitas kamu. Definisikan 5 dimensi scoring yang relevan dengan tipe konten kamu (boleh pakai yang di sesi ini atau buat sendiri). Untuk setiap dimensi, definisikan seperti apa skor 10 dan seperti apa skor 0. Skor 5 konten dengan kualitas bervariasi. Kalo skor-nya ga cocok dengan ranking intuitif kamu, sesuaikan rubrik dan skor lagi. Ulangi sampai angkanya mencerminkan realitas.