Cara menggunakan Meta Robots dan robots.txt lengkap

Blog kak Ryan - Meta tag robot dan file robots.txt adalah settingan konfigurasi yang berupa teks biasa, kode ini digunakan untuk memberikan info kepada mesin crawler (robot spider) tentang bagaimana cara pengindex-an halaman tersebut. Contohnya mesin perayap google, bot spider atau sejenisnya. Kebanyakan penggunaan konfig ini diperuntukan agar suatu halaman tidak diindex oleh mesin pencari (Mencegha crawler). Misalkan pada Halaman login, pencarian, halaman arsip atau halaman yang sensitif lainya.

Ada banyak nilai atribut konfigurasi robot yang bisa digunakan, cara penggunaan serta fungsinya juga berbeda-beda. Misalkan atribut rel=nofollow, adalah sejenis atribute robots pada hyperlink yang bertujuan memberitahukan kepada robot crawer agar mengecualikan link tersebut. Sehingga link yang diberi atribut ini tidak akan di crawing, tidak akan diindex. Contoh penggunaan:

<a href="https://domainsitus.com" rel="nofollow">Baca sini</a>

Banyak menggunakan rell=nofollow sebagaia atribut agar halaman tersebut dikecualikan, pada moz hal ini tidak akan mempengaruhi kualitas PA (Page Authority) halaman. Karena semua robot Crawler mengecualikan link tersebut.

Selain itu ada juga meta robots, meta robots dituliskan pada bagian atas dokumen halaman. Khususnya diantara tag head, kegunaan dari kode ini sama seperti file robots.txt, namun hanya berlaku untuk satu halaman itu saja. Contoh penggunaan:

<meta name="robots" content="nofollow,noindex,noodp"/>

File robots.txt pada sebuah website

Penggunaan robots.txt kegunaamya sama saja seperti yang saya jelaskan diatas diatas namun lebih kompleks, file robots.txt diletakan diluar root folder domain agar bisa diakses lewat domainmu.com/robots.txt. Biasanya perayap yang ada pada mesin pencari akan membaca file ini terlebih dahulu sebelum melakukan perayapan pada domain tersebut. Isi dari file ini merupakan sintaks fungsi yang ditulis per-baris, dan setiap barisnya mewakili suatu halaman serta berisi pengaturan konfigurasi untuk mesin crawler.

Baca juga: Cara mereset template blogger, menghapus semua template bawaan blank template

Robots.txt juga bisa digunakan untuk memberikan informasi mengenai sitemap, atau RRS Feed. Misalkan kita ingin memblokir semua robot crawler mengakses folder yang berisikan file penting, maka bisa dituliskan seperti ini pada file robots.


User-agent: *
Disallow: /cgi-bin/
Disallow: /files/
Disallow: /images/
Disallow: /themes/

Menambahkan sitemap, agar bisa dikenali bot crawler. Hal ini tentunya akan sangat berguna, walaupun bot crawler jarang mengindeks link dari feeds.


Sitemap: https://domain-contoh.com/feeds/posts/default?orderby=UPDATED
Sitemap: https://domain-contoh.com/sitemap.xml

RRS / feed blog pada domain yang diberitahukan melalui file robots.txt ini bisa diketahui oleh mesin perayap, selain mesin pencari beberapa aplikasi lainya juga bisa mengenali. Salah satunya dlvr.it akan mengenali feed dari sebuah situs yang kita masukan secara otomatis. Aplikasi tersebut membacanya dari file robots.txt

Pada platform blogger.com sudah disediakan pada bagian setelan informasi berbagi. Ada meta robost disana, selain meta robots ada juga setelan robots.txt untuk setiap halaman kamu bisa mengaturnya apakah semua halaman sama. Atau juga bisa mengcustomisasinya agar setiap halaman memiliki robots berbeda-beda.

Saya menggunakan yang customizable, karena pada blog ini tidak semua halaman saya index-kan ke google. Khususnya halaman safelink, atau yang pernah kena duplikat saya berikan tag noindex agar artikel tersebut tidak mempengaruhi kualitas dari blog ini.

Penggunaan meta noindex suatu halaman memang menghasilkan error pada search console, karena mesin perayap mencoba mencraw halaman tersebut. Hal ini terjadi karena tidak memberikan atribut rel=nofollow ketika membuat permalink yang mengarah ke halaman tersebut.

Baca juga : Belajar membuat breadcrumb sederhana di blogger

Jika kamu mendapat pesan kesalahan yang berbunyi "URL ditandai tag noindex" dan memang benar kamu yang menandainya abaikan saja pesan tersebut. Atau kamu cukup menghapus URL yang sudah ter-index tersebut dengan menggunakan fitur penghapusan halaman yang sudah disediakan.

Bagaimana kalau ditiadakan

File robots atau meta robots sangat penting, jika ditiadakan maka bisa saja semua halaman pada blogmu ter-index google. Mulai dari halaman dekstop (m=0) dan mobile (m=1) sehingga menyebabkan duplikat konten.

Halaman archive dan bahkan penelusuran blog akan terindex, situs/blog akan terlihat tidak bagus jika semua halaman yang tidak kita inginkan diindex oleh google. Masa halaman arsip harus diindex semua, gaasik kan!😒

Saat ini hampir semua situs web menggunakan file robots.txt ini, penggunaanya merupakan salah satu bagian dari seo. Coba kalian lihat situs apa saja yang ada dalam benak kalian? Akses situs tersebut tambahkan /robots.txt pada bagian akhir domain. Misalkan situs cnn indonesia 👉 https://cnnindonesia.com/robots.txt

Dengan begitu kalian akan mengetahui banyaknya setelan info konfigurasi pada situs tersebut. Biasanya halaman admin tertera dengan konfig noindex, nofollow. Situs-situs besar memang banyak sekali konten mereka, baik konten sensitif, pribadi dan lainya sehingga mereka bisa mengatur bagaimana cara mesin pencari menangani situs mereka.

Apakah robost bisa menangkal jinggling?

Jawabnya tidak, konfigurasi robots hanyalah sebuah file teks biasa. Dan tidak mempengaruhi halaman apapun yang ada pada web kita, namun konfigurasi ini digunakan oleh mesin perayap yang membutuhkanya. Misalnya perayap google, yahoo, bing dan masih banyak lagi. Sedangkan web jinggling hanyalah sebuah permintaan kunjungan semata yang dilakukan secara otomatis.

Baca juga : Tips Membuat halaman post safelink sederhana

WebJinggling yang dibangun menggunakan javascript umumnya menggunakan ajax XhttpRequest untuk membuat permintaan kunjungan ke halaman target berkali-kali dilatar belakang. Perlu kalian ketahui bahwa hal ini hanya akan menambah jumlah angka statistik kunjungan saja, tidak mempengaruhi apapun. Apalagi menjalankan javascript yang ada pada situs kita, sangat tidak mungkin. Bayangkan saja proses pemuatan halaman blog membutuhkan waktu 1-5 detik, sedangkan webjinggling hanya dalam beberapa milidetik saja, karena mereka hanya mengakses dokumen teks biasa dan tidak menjalankanya. Selain itu juga orang yang mengoperasikan autojingling jenis ini akan mengalami pemakaian kuota yang sangat drastis, bisa lebih 100MB/menit Hehehehe, itu karena webjinggling mengunduh dokumen file HTML web dilatar belakang dengan cara mengaksesnya secara berulang.

Cara menggunakan Meta Robots dan robots.txt lengkap

File robots.txt pada sebuah website

Bagaimana kalau ditiadakan

Apakah robost bisa menangkal jinggling?

Menu Halaman Statis