Manajemen Context Window
Sesi 5.7 · ~5 menit baca
Lebih Banyak Context Ga Selalu Lebih Baik
Setiap model AI punya context window, jumlah maksimum teks yang bisa diproses dalam satu permintaan. Claude menangani 200.000 token. GPT-4 menangani 128.000. Gemini menangani sampai 2 juta. Angka-angka ini kedengarannya kaya kamu bisa lempar semua ke model dan biarkan dia yang urusin. Riset menunjukkan ini ide buruk.
Peneliti Stanford dan UC Berkeley mendokumentasikan masalah "lost in the middle" di 2023: model memperhatikan awal dan akhir context dengan baik tapi buruk di bagian tengah. Akurasi turun lebih dari 30% saat informasi relevan ditempatkan di posisi tengah. Riset 2025 oleh Chroma menguji 18 model frontier dan menemukan setiap model jadi lebih buruk seiring input membesar, fenomena yang sekarang disebut "context rot."
Context window punya batas efektif yang jauh di bawah batas yang diiklankan. Model yang menerima 200.000 token ga perform sama baiknya di semua 200.000 token. Performa menurun seiring context membesar. Skill-nya bukan mengisi window. Skill-nya mengisi dengan persis apa yang penting.
Apa yang Masuk, Apa yang Ga
Setiap token di context window kamu bersaing untuk perhatian model. Context yang ga relevan bukan cuma buang tempat. Dia secara aktif menurunkan performa. Riset Chroma menemukan bahwa konten yang secara semantik mirip tapi ga relevan secara aktif menyesatkan model, menghasilkan hasil lebih buruk daripada ga ada context sama sekali.
| Masukkan | Jangan Masukkan |
|---|---|
| System prompt (voice, batasan, aturan) | Informasi latar belakang umum yang model udah tahu |
| Fakta spesifik yang model butuhkan untuk tugas ini | Riset yang cuma sedikit berhubungan |
| Few-shot examples (maksimal 2-3) | Semua contoh yang pernah kamu kumpulkan |
| Sumber riset yang persis untuk konten ini | Seluruh perpustakaan riset kamu |
| Template struktural untuk output | Template untuk tipe konten lain |
| Bab sebelumnya yang relevan (untuk konten sekuensial) | Semua bab sebelumnya |
Strategi Context untuk Produksi Konten
Strategi context yang praktis punya tiga tier. Setiap tier menambahkan context hanya kalo tier sebelumnya ga menghasilkan kualitas yang cukup.
System prompt + task + template
(~2.000 token)"] --> B{"Kualitas output
cukup?"} B -->|Ya| C["Pakai output ini"] B -->|Ga| D["Tier 2: Diperkaya
+ ringkasan riset + 2 contoh
(~5.000-10.000 token)"] D --> E{"Kualitas output
cukup?"} E -->|Ya| F["Pakai output ini"] E -->|Ga| G["Tier 3: Maksimum
+ sumber lengkap + contoh lebih
(~20.000-50.000 token)"] G --> H["Pakai output ini
(review dengan teliti)"] style A fill:#222221,stroke:#6b8f71,color:#ede9e3 style D fill:#222221,stroke:#c8a882,color:#ede9e3 style G fill:#222221,stroke:#c47a5a,color:#ede9e3
Mulai dari Tier 1. Kalo output-nya kurang spesifik yang cuma ada di sumber riset kamu, naik ke Tier 2. Baru ke Tier 3 kalo kontennya memang butuh materi sumber yang ekstensif, kaya artikel yang sangat teknis atau bab yang harus mereferensikan beberapa bab sebelumnya.
Penempatan Context Itu Penting
Mengingat masalah "lost in the middle," di mana kamu menempatkan informasi di context window mempengaruhi seberapa baik model menggunakannya. Informasi kritis harus ada di awal (system prompt, batasan terpenting) atau di akhir (tugas spesifik, sumber paling relevan). Informasi pendukung di tengah, di mana dia dapat perhatian lebih sedikit tapi tetap berkontribusi ke output keseluruhan.
Untuk prompt produksi, ini artinya menyusun input kamu dengan sengaja:
- Awal: System prompt, aturan voice, batasan kritis
- Tengah: Sumber riset, informasi latar belakang, contoh
- Akhir: Tugas spesifik, format output, pengingat terakhir aturan kunci
Mengulang instruksi terpenting di awal dan akhir context bukan redundant. Itu strategis. Model memberi bobot lebih ke awal dan akhir, jadi menaruh aturan kritis di kedua posisi meningkatkan kepatuhan.
Mengukur Efisiensi Context
Lacak rasio token context terhadap kualitas output. Kalo menggandakan context dari 5.000 ke 10.000 token menghasilkan peningkatan kualitas yang terlihat, context tambahan itu worth it. Kalo menggandakan lagi ke 20.000 token ga menghasilkan peningkatan yang terlihat, kamu udah menemukan titik diminishing returns untuk tipe konten itu.
Bacaan Lanjutan
- The 'Lost in the Middle' Problem, DEV Community
- Context Rot: Why LLMs Degrade as Context Grows, Morph
- Context Window Management for LLM Apps, Redis
Tugas
Ambil tugas produksi nyata yang butuh context substansial (misalnya, menulis review berdasarkan riset). Buat tiga versi prompt: satu dengan context minimal (cuma instruksi tugas), satu dengan context sedang (instruksi + ringkasan riset), dan satu dengan context maksimum (instruksi + sumber riset lengkap + beberapa contoh). Bandingkan kualitas output di ketiganya. Temukan titik diminishing returns. Dokumentasikan.