Kenapa Default AI Itu Medioker
Sesi 1.1 · ~5 menit baca
Coba minta ChatGPT, Claude, atau Gemini untuk "tulis satu paragraf tentang kopi" tanpa system prompt dan tanpa instruksi tambahan. Lakukan tiga kali. Kamu bakal dapat tiga paragraf yang sedikit beda tapi bunyinya sama. Pasti nyebut aroma. Pasti nyebut ritual. Pasti pakai frasa "lebih dari sekadar minuman" atau sesuatu yang fungsinya persis sama. Hasilnya kompeten, ga menyinggung siapa-siapa, dan ga bakal diingat siapapun.
Ini bukan bug. Ini memang cara kerja language model.
Training dari Rata-Rata
Large language model dilatih dari dataset teks masif yang di-scrape dari internet: buku, artikel, forum, website, dokumentasi, media sosial. Model belajar pola statistik. Dari urutan kata, dia prediksi kata selanjutnya yang paling mungkin. Dari prompt tentang kopi, dia generate kalimat yang secara statistik paling probable tentang kopi berdasarkan semua yang pernah dia baca.
Internet isinya kebanyakan medioker. Ga jelek, ga bagus. Medioker. Kualitas rata-rata tulisan online mengikuti distribusi normal, dan puncak distribusi itu adalah prosa yang kompeten, generik, ga ada istimewanya. Model belajar distribusi ini. Output default-nya duduk di puncak distribusi itu.
Miliaran halaman web"] --> B["Model belajar
pola statistik"] B --> C["Output default =
rata-rata statistik"] C --> D["Medioker by design"]
Output default language model adalah rata-rata statistik dari semua tulisan manusia. Rata-rata dari segalanya adalah bukan apa-apa.
RLHF: Lapisan Penghalus
Setelah training awal, model melewati Reinforcement Learning from Human Feedback (RLHF). Rater manusia mengevaluasi pasangan output model dan menunjukkan mana yang lebih baik. Model kemudian menyesuaikan diri untuk menghasilkan lebih banyak output yang disukai rater.
Secara teori, RLHF harusnya meningkatkan kualitas. Praktiknya, RLHF mengoptimasi definisi spesifik dari "lebih baik" yang lebih mengutamakan keamanan dan kepatuhan daripada spesifisitas dan orisinalitas. Rater-nya biasanya bukan ahli di bidangnya. Mereka kontraktor yang mengevaluasi apakah respons itu helpful, harmless, dan honest. Respons yang hati-hati, seimbang, dan mencakup banyak sudut pandang dapat nilai bagus. Respons yang membuat klaim kuat dan spesifik dapat nilai lebih jelek, karena klaim kuat berisiko salah.
| Yang Dioptimasi RLHF | Yang Dihasilkan | Yang Hilang |
|---|---|---|
| Helpfulness | Komprehensif, mencakup semua sudut | Keringkasan, ketegasan |
| Harmlessness | Hati-hati, penuh hedge, penuh kualifikasi | Opini kuat, klaim berani |
| Honesty | Mengakui ketidakpastian | Kepercayaan diri, otoritas |
| Daya tarik luas | Generik, cocok untuk audiens manapun | Voice, kepribadian, spesifisitas |
Proses RLHF mengambil model yang sudah default ke rata-rata dan menghaluskannya lebih jauh. Persona "asisten yang helpful" yang dihasilkan bukan pilihan kreatif dari model. Itu adalah target optimasi yang dituju oleh proses training.
Kurungan "Asisten yang Helpful"
Persona default kebanyakan model AI adalah asisten yang helpful, agak formal, dan sabar tanpa batas. Persona ini ada karena itulah yang dipilih oleh proses training. Ini bukan satu-satunya persona yang mungkin. Ini adalah persona yang mendapat skor tertinggi dari rater terluas yang mengevaluasi query terluas.
Si asisten helpful:
- Ga pernah mengambil posisi tegas ("Ada argumen di kedua sisi...")
- Ga pernah mengakui ketidaktahuan secara langsung ("Meskipun saya tidak punya data spesifik tentang ini...")
- Selalu hedging ("Penting untuk dicatat bahwa...")
- Selalu mengakui kompleksitas ("Ini topik yang bernuansa...")
- Selalu menawarkan pandangan seimbang, bahkan ketika satu sisi jelas salah
Setiap pola ini adalah optimasi rasional berdasarkan tujuan training. Setiap pola juga membuat output-nya kurang berguna buat siapapun yang butuh jawaban jelas, spesifik, dan berpendapat untuk pertanyaan konkret.
Belajar rata-rata internet"] --> B["RLHF
Optimasi untuk aman + helpful"] B --> C["Persona default
'Asisten Helpful'"] C --> D["Hedging"] C --> E["Nada generik"] C --> F["Keseimbangan palsu"] C --> G["Antusiasme menggantikan
spesifisitas"]
Kenapa Ini Penting untuk Produksi Konten
Kalo kamu pakai AI dengan setting default dan tanpa batasan, kamu bakal dapat output yang duduk persis di persimpangan antara "rata-rata internet" dan "keamanan RLHF yang sudah dihaluskan." Output ini bakal:
- Secara tata bahasa benar
- Relevan dengan topik
- Strukturnya bisa ditebak
- Sama sekali ga mengandung apapun yang bakal diingat pembaca
Model-nya ga malas. Dia melakukan persis apa yang dilatihkan. Masalahnya bukan model-nya. Masalahnya adalah memakai model tanpa meng-override default-nya. System prompt, few-shot example, pengaturan temperature, dan spesifikasi output terstruktur ada persis untuk menarik model menjauh dari pusat gravitasinya. Tanpa intervensi itu, kamu dapat rata-rata. Rata-rata itu medioker.
Sesi-sesi berikutnya membedah penanda spesifik dari kemediokritasan itu, satu pola per satu.
Bacaan Lanjutan
- Illustrating Reinforcement Learning from Human Feedback (RLHF) (Hugging Face)
- What is RLHF? (AWS)
- Reinforcement Learning from Human Feedback (Wikipedia)
- What Is Reinforcement Learning From Human Feedback? (IBM)
Tugas
- Tanya model AI manapun pertanyaan yang sama tiga kali tanpa system prompt: "Tulis satu paragraf tentang kopi."
- Bandingkan tiga output-nya berdampingan. Highlight setiap frasa yang muncul di minimal dua dari tiga output. Frasa yang berulang itu adalah pusat gravitasi model.
- Hitung frasa yang di-highlight. Buat tabel: Frasa Berulang | Muncul di (2/3 atau 3/3) | Kenapa Ini Default (apa yang membuat ini pilihan "aman").
- Tulis satu paragraf yang mendeskripsikan seperti apa "suara" model ketika ga diberi arahan. Seperti apa bunyinya rata-rata dari segalanya?