Table of Content

    llms.txt vs robots.txt agar Tidak Salah Pakai

    Banyak pemilik website mulai mendengar llms.txt karena naiknya AI search, ChatGPT Search, dan pembahasan soal “SEO untuk AI”. Masalahnya, file ini sering disamakan dengan robots.txt, seolah-olah keduanya punya fungsi yang sama untuk mengatur apakah AI boleh mengambil konten website.

    Padahal, fungsi keduanya berbeda jauh. robots.txt adalah file lama yang dipakai untuk memberi instruksi crawl kepada crawler. Sementara itu, llms.txt adalah proposal baru yang bertujuan membantu LLM memahami konten penting di sebuah website.

    Jadi, pertanyaan yang lebih tepat bukan “mana yang lebih bagus?”, melainkan “kontrol apa yang Anda butuhkan?” Apakah Anda ingin membatasi crawler, mengatur visibilitas di search, atau membantu AI memahami halaman penting di website Anda?

    Jawaban Singkat: robots.txt Mengatur Crawl, llms.txt Membantu Kurasi Konten

    robots.txt digunakan untuk memberi arahan kepada crawler tentang bagian website mana yang boleh atau tidak boleh di-crawl. File ini sudah menjadi bagian dari praktik teknis web yang mapan dan distandarkan dalam RFC 9309.

    llms.txt berbeda. File ini bukan standar resmi untuk melarang atau mengizinkan crawler. Fungsinya lebih dekat ke peta konten terkurasi untuk LLM, yaitu menunjukkan halaman mana yang paling penting, konteks apa yang perlu dipahami, dan link mana yang layak dibaca ketika AI atau agent mencoba memahami sebuah website.

    Perbandingan sederhananya seperti ini:

    Aspekrobots.txtllms.txt
    Fungsi utamaMengatur akses crawler ke bagian websiteMemberi ringkasan dan daftar link penting untuk LLM
    StatusProtokol mapan dan distandarkan dalam RFC 9309Proposal baru, belum menjadi standar resmi
    Format umumTeks dengan aturan User-agent, Allow, dan DisallowMarkdown dengan ringkasan dan daftar link
    Efek ke SEO tradisionalBisa memengaruhi crawling dan discovery halamanBelum terbukti menjadi faktor ranking atau citation
    Bisa memblokir AI training?Bisa memberi arahan ke bot tertentu jika bot tersebut menghormati robots.txtTidak, karena bukan mekanisme blokir
    Cocok untukKontrol crawl, efisiensi crawler, pembatasan area tertentuKurasi halaman penting untuk AI/LLM

    Kesalahan umum muncul ketika llms.txt disebut sebagai “robots.txt untuk AI”. Analogi itu terlalu menyederhanakan. robots.txt adalah instruksi akses untuk crawler yang patuh. llms.txt lebih mirip catatan ringkas yang menunjukkan bagian website yang sebaiknya dibaca lebih dulu.

    Apa Itu robots.txt dalam Praktik SEO?

    robots.txt adalah file yang biasanya diletakkan di root domain, misalnya example.com/robots.txt. Isinya memberi arahan kepada crawler tentang URL atau direktori mana yang boleh atau tidak boleh diakses.

    Dalam SEO, file ini sering dipakai untuk mengelola crawl budget, mencegah crawler masuk ke halaman yang tidak penting, atau membatasi area teknis seperti halaman pencarian internal, parameter tertentu, dan direktori yang tidak perlu dirayapi.

    Namun, ada satu salah paham besar: robots.txt bukan alat untuk menghapus halaman dari Google Search. Jika sebuah URL diblokir lewat robots.txt, Google mungkin tidak bisa membaca isi halaman tersebut. Namun, URL itu masih bisa muncul di hasil pencarian jika Google menemukannya dari link lain.

    Untuk mencegah halaman muncul di Search, solusi yang lebih tepat biasanya adalah noindex, proteksi akses, atau penghapusan halaman. Ini penting karena banyak pemilik website berpikir bahwa halaman pasti hilang dari Google setelah diberi Disallow. Kenyataannya tidak sesederhana itu.

    robots.txt juga bukan sistem keamanan. Jika ada file sensitif, dashboard, dokumen internal, atau halaman yang benar-benar tidak boleh diakses publik, jangan mengandalkan robots.txt. File ini hanya instruksi kepada bot yang patuh, bukan penghalang akses.

    Apa Itu llms.txt dan Kenapa Mulai Dibahas?

    llms.txt adalah proposal yang diperkenalkan Jeremy Howard pada 3 September 2024. Format yang disarankan adalah file Markdown di root website, misalnya example.com/llms.txt.

    Isinya biasanya mencakup nama situs atau proyek, ringkasan singkat, konteks tambahan, dan daftar link penting. Tujuannya adalah membantu LLM memahami bagian website yang paling relevan tanpa harus menebak dari struktur HTML, navigasi, iklan, JavaScript, atau elemen lain yang bisa membuat halaman lebih sulit dibaca oleh model.

    Untuk website dokumentasi, misalnya, llms.txt bisa menunjuk ke halaman instalasi, API reference, changelog, pricing, dan halaman troubleshooting. Untuk website bisnis, file ini bisa mengarah ke halaman layanan, profil perusahaan, kebijakan, studi kasus, dan artikel pilar yang menjelaskan keahlian utama.

    Jadi, llms.txt bukan file untuk melarang AI mengambil konten. Fungsinya lebih dekat ke content brief untuk mesin. Jika ada sistem AI yang ingin memahami situs ini, file tersebut memberi petunjuk tentang bagian mana yang sebaiknya diprioritaskan.

    Karena itu, file ini lebih relevan untuk website yang punya banyak halaman, dokumentasi, atau konten edukasi yang perlu dikurasi. Untuk website kecil dengan lima halaman sederhana, manfaatnya mungkin tidak terlalu besar, kecuali pemilik situs ingin mulai bereksperimen lebih awal.

    llms.txt Bukan Pengganti robots.txt

    Perbandingan llms.txt vs robots.txt sering keliru karena keduanya ditempatkan di root domain dan sama-sama dibaca oleh mesin. Padahal, cara kerjanya berbeda.

    robots.txt menjawab pertanyaan: “Bot ini boleh masuk ke halaman ini atau tidak?” Sementara itu, llms.txt menjawab pertanyaan: “Kalau AI ingin memahami situs ini, halaman pentingnya yang mana?”

    Itu sebabnya llms.txt tidak menggantikan robots.txt. Anda tetap membutuhkan robots.txt untuk mengelola crawl, terutama jika website memiliki banyak URL teknis, parameter, arsip, filter, atau halaman yang tidak perlu dirayapi.

    Sebaliknya, robots.txt tidak bisa memberi ringkasan konten yang rapi untuk LLM. File ini tidak dirancang untuk menjelaskan konteks bisnis, prioritas halaman, atau daftar resource utama dalam format yang nyaman dibaca AI.

    Keduanya punya tugas masing-masing. robots.txt adalah kontrol akses crawler. llms.txt adalah kurasi konten. Menggunakan salah satunya untuk fungsi yang bukan tujuannya hanya akan membuat keputusan SEO menjadi kabur.

    Apakah llms.txt Bisa Meningkatkan Ranking atau Muncul di AI Search?

    Saat ini, klaim bahwa llms.txt bisa langsung meningkatkan ranking, citation, atau visibilitas di AI search belum punya bukti kuat. Beberapa analisis industri justru menunjukkan hasil yang lebih hati-hati.

    SE Ranking menganalisis hampir 300.000 domain dan menemukan hanya 10,13% yang memiliki llms.txt. Dari analisis tersebut, mereka tidak menemukan korelasi antara keberadaan file llms.txt dan seberapa sering domain dikutip oleh LLM. Bahkan, model prediksi mereka lebih akurat ketika variabel llms.txt dihapus.

    Search Engine Land juga melacak beberapa website selama 90 hari sebelum dan sesudah implementasi llms.txt. Hasilnya tidak menunjukkan pola kuat yang bisa membuktikan bahwa file tersebut menaikkan traffic dari AI. Ada situs yang naik, tetapi sebagian besar tidak berubah, dan kenaikan yang terjadi tidak bisa langsung dikaitkan dengan llms.txt.

    Artinya, artikel tentang topik ini perlu berhati-hati. Kalimat seperti “pasang llms.txt agar muncul di ChatGPT” terlalu berlebihan. Kalimat yang lebih aman adalah: llms.txt dapat membantu mengkurasi konten penting untuk sistem AI yang memilih membaca file tersebut, tetapi belum terbukti menjadi faktor utama visibilitas AI search.

    Dari sisi praktis, file ini tetap menarik karena biayanya relatif rendah. Namun, jangan jadikan llms.txt sebagai prioritas sebelum masalah dasar seperti indexing, sitemap, struktur internal link, canonical, dan robots.txt sudah rapi.

    Bagaimana dengan Google Search dan AI Overviews?

    Untuk Google Search, kontrol utama tetap mengikuti dokumentasi Google Search, bukan llms.txt. Google menyatakan fitur AI di Search adalah bagian dari Search. Jadi, pengaturan akses untuk Google tetap berkaitan dengan Googlebot, robots.txt, dan kontrol preview seperti nosnippet, data-nosnippet, atau max-snippet.

    Ini penting karena banyak pemilik website ingin tidak muncul di AI Overviews, tetapi tetap ingin ranking di hasil organik biasa. Dalam ekosistem Google, keputusan itu tidak selalu bisa dipisahkan secara bersih.

    Jika Anda memblokir Googlebot lewat robots.txt, risikonya bukan hanya membatasi fitur AI, tetapi juga mengganggu kemampuan Google memahami dan menampilkan halaman di Search. Jika Anda memakai nosnippet atau membatasi snippet, efeknya juga bisa memengaruhi bagaimana konten ditampilkan di hasil pencarian.

    Jadi, untuk Google, jangan menganggap llms.txt sebagai tombol kontrol AI. File itu tidak dibuat untuk mengatur AI Overviews. Jika targetnya adalah mengontrol tampilan, snippet, atau indexing di Google, gunakan mekanisme yang memang didokumentasikan Google.

    AI Crawler Tidak Semuanya Sama

    Satu hal yang sering dilewatkan dalam pembahasan robots.txt adalah perbedaan tujuan crawler. Tidak semua bot AI melakukan hal yang sama. Ada bot yang mengambil konten untuk training, ada yang mengambil konten untuk fitur search, dan ada yang mengakses halaman karena pengguna meminta AI membuka atau merangkum URL tertentu.

    OpenAI, misalnya, mendokumentasikan beberapa bot dengan tujuan berbeda. OAI-SearchBot berkaitan dengan penampilan website di fitur search ChatGPT, sedangkan GPTBot dapat digunakan untuk crawling yang berhubungan dengan training model. Pengaturannya bisa dipisahkan.

    Dari sisi bisnis, ini membuat keputusan menjadi lebih detail. Sebuah website mungkin ingin tetap muncul di hasil ChatGPT Search, tetapi tidak ingin kontennya dipakai untuk training. Dalam kasus seperti itu, pemilik situs bisa mempertimbangkan konfigurasi robots.txt yang berbeda untuk bot search dan bot training, selama bot tersebut menyediakan user-agent yang jelas dan menghormati aturan.

    Namun, ini juga berarti Anda tidak bisa memakai satu kalimat umum seperti “blokir AI bot”. Pertanyaannya harus lebih spesifik: AI bot yang mana, untuk tujuan apa, dan apa konsekuensinya terhadap visibilitas website?

    Kenapa robots.txt Makin Penting di Tengah Naiknya AI Crawler?

    Diskusi ini tidak hanya soal teori teknis. Laporan Cloudflare menunjukkan bahwa traffic dari AI dan search crawler meningkat 18% dari Mei 2024 ke Mei 2025 pada kelompok crawler yang mereka amati. Dalam periode tersebut, request dari GPTBot naik 305%, sementara ChatGPT-User naik 2.825%.

    Cloudflare juga melaporkan bahwa sepanjang 2025, AI bots rata-rata menyumbang 4,2% dari HTML requests, sedangkan Googlebot sendiri menyumbang 4,5%. Angka ini tidak bisa langsung dianggap sama untuk semua website Indonesia, tetapi cukup menunjukkan bahwa aktivitas bot AI mulai menjadi bagian nyata dari traffic web.

    Bagi website kecil, dampaknya mungkin belum terasa. Namun, untuk publisher, blog besar, ecommerce, atau situs dokumentasi, aktivitas bot bisa memengaruhi beban server, log analytics, dan keputusan akses konten.

    Di sinilah robots.txt tetap lebih penting daripada llms.txt. Jika masalahnya adalah kontrol bot, beban server, atau batasan akses crawler, file yang relevan adalah robots.txt, bukan llms.txt.

    Kapan Website Perlu Memasang llms.txt?

    llms.txt paling masuk akal jika website Anda punya konten penting yang ingin dikurasi untuk AI. Contohnya website SaaS, dokumentasi produk, blog edukasi yang punya banyak artikel pilar, marketplace niche, atau website bisnis dengan banyak halaman layanan.

    Untuk website seperti itu, llms.txt bisa dipakai untuk menunjukkan halaman yang paling layak dibaca. Misalnya halaman produk utama, dokumentasi teknis, kebijakan harga, halaman bantuan, panduan pelanggan, atau artikel edukasi utama.

    Namun, file ini sebaiknya tidak diisi dengan terlalu banyak link. Nilainya justru ada pada kurasi. Jika semua halaman dimasukkan, file tersebut kehilangan fungsi sebagai peta prioritas.

    Untuk blog biasa, pendekatan yang lebih realistis adalah memasukkan halaman pilar, kategori penting, dan beberapa artikel terbaik yang benar-benar mewakili topik utama website. Jangan memasukkan halaman tipis, artikel lama yang sudah tidak akurat, tag archive, atau halaman yang tidak ingin dijadikan rujukan.

    Jika menggunakan WordPress, beberapa tool SEO mulai menyediakan fitur llms.txt. Yoast, misalnya, menjelaskan bahwa file llms.txt mereka dibuat di root website dan dapat diperbarui secara berkala. Namun, implementasi otomatis tetap perlu dicek karena prioritas sistem belum tentu sama dengan prioritas bisnis Anda.

    Kapan robots.txt Harus Lebih Diprioritaskan?

    Jika website Anda punya masalah teknis SEO, robots.txt hampir selalu lebih prioritas. Misalnya halaman penting tidak ter-crawl, halaman staging ikut terbaca, parameter URL membuat banyak duplikasi, atau crawler menghabiskan waktu di halaman yang tidak penting.

    Kesalahan robots.txt juga bisa lebih berisiko. Salah menulis Disallow bisa membuat halaman penting tidak terbaca. Memblokir file CSS atau JavaScript tertentu bisa mengganggu cara search engine merender halaman. Memblokir halaman canonical atau halaman yang dibutuhkan untuk hreflang juga bisa memicu masalah teknis yang tidak terlihat dari permukaan.

    Sebaliknya, kesalahan llms.txt biasanya tidak langsung merusak SEO tradisional. Namun, efek buruknya bisa muncul dalam bentuk sinyal kurasi yang buruk. Misalnya AI diarahkan ke halaman yang tidak representatif, halaman lama, atau konten yang sebenarnya tidak ingin Anda tonjolkan.

    Jadi, prioritas praktisnya jelas. Bereskan robots.txt dulu, lalu sitemap, canonical, internal link, dan indexing. Setelah fondasi itu rapi, llms.txt bisa dipertimbangkan sebagai eksperimen tambahan.

    Kesalahan Umum Saat Membandingkan llms.txt dan robots.txt

    Kesalahan pertama adalah mengira llms.txt bisa memblokir AI training. File ini tidak dirancang untuk itu. Jika tujuannya membatasi crawler tertentu, gunakan robots.txt dan aturan untuk user-agent yang relevan.

    Kesalahan kedua adalah mengira robots.txt bisa menghapus halaman dari Google. Untuk kasus indexing, Anda perlu memahami perbedaan antara crawl dan index. Halaman yang tidak boleh di-crawl belum tentu otomatis hilang dari hasil pencarian.

    Kesalahan ketiga adalah memasang llms.txt hanya karena tren, tanpa strategi konten. File ini seharusnya berisi halaman yang benar-benar ingin dijadikan konteks utama. Jika isinya hanya daftar URL acak, manfaatnya akan kecil.

    Kesalahan keempat adalah memblokir semua AI bot tanpa mempertimbangkan dampaknya. Jika sebuah bot berperan dalam fitur search yang bisa memberi traffic atau visibility, pemblokiran total bisa mengurangi peluang website ditemukan di kanal baru.

    Kesalahan kelima adalah membuat klaim SEO terlalu jauh. Sampai saat ini, bukti publik belum cukup untuk mengatakan bahwa llms.txt meningkatkan ranking atau citation. Lebih aman memosisikannya sebagai eksperimen kurasi, bukan taktik ranking.

    Jadi, Mana yang Harus Dipakai?

    Jika Anda hanya boleh memilih prioritas, pilih robots.txt dulu. File ini lebih mapan, lebih relevan untuk kontrol crawler, dan lebih berisiko jika salah konfigurasi. Pastikan aturan di dalamnya tidak memblokir halaman penting, tidak mengganggu render, dan sesuai dengan strategi indexing.

    Setelah itu, pertimbangkan llms.txt jika website Anda punya konten penting yang layak dikurasi untuk AI. Buat file yang ringkas, jelas, dan selektif. Masukkan halaman yang benar-benar membantu mesin memahami bisnis, produk, dokumentasi, atau keahlian utama website.

    Untuk banyak website, jawaban terbaik bukan memilih salah satu. robots.txt dan llms.txt bisa berjalan berdampingan karena tugasnya berbeda. robots.txt mengatur akses crawler. llms.txt membantu kurasi konteks untuk LLM.

    Kesimpulan praktisnya, jangan berharap llms.txt menjadi jalan pintas AI SEO. Gunakan robots.txt untuk kontrol teknis yang nyata, gunakan llms.txt sebagai eksperimen kurasi konten, dan hindari klaim berlebihan sampai ada bukti yang lebih kuat bahwa file tersebut benar-benar memengaruhi visibilitas di AI search.

    Referensi

    RELATED POST

    Leave a Reply

    Your email address will not be published. Required fields are marked *