Cara Membuat Robots.txt di Website dengan blog itu berbeda. Contoh saja blogger dengan wordpress sudah jauh berbeda. Codeignitier, Joomla, Drupal, Nginx dan lainnya merupakan contoh framework website yang berbeda.
Web Robots (juga dikenal dengan Web Wanderer, Crawler, atau Spider) merupakan program yang melintasi Web secara otomatis. Mesin Pencari seperti Google menggunakannya untuk mngindeks konten web, spammer menggunakan mereka untuk mencari alamat email, dan masih banyak kegunaan Web Robots yang lain.Pemilik situs Web memakai file robots.txt untuk memberikan petunjuk mengenai mereka ke situs web robot. Protokol yang dipakai disebut Robots Exclusion Protocol.Contoh isi file robots.txt adalah : User-agent: * Disallow: /- User-agent: * artinya bagian ini berlaku ke semua robot.
- Disallow: / artinya robot tidak boleh mengunjungi semua bagian dari website.
2 Informasi Penting yang berkaitan dengan robots.txt :
- Robot dapat mengabaikan file robots.txt , terutama robot yang memang berniat jahat dengan memindai malware di web atau para spammer.
- File robots.txt adalah fil yang tersedia untuk umum (bisa dibuka oleh siapapun). Siapapun dapat melihat bagian dari server anda dan anda tidak dapat menghalanginya meskipun telah menambahkan perintah disallow.
Skema mengenai crawler di search engine :
File robots.txt biasanya diletakkan di level teratas dari direktori web server Anda. Anda dapat meletakkannya di directory lain yang diinginkan.
Jadi robot akan melihat apakah ada file robots.txt untuk tiap directory server.
Sebagai contoh, untuk file http://impoint.blogspot.com/seo-google-tips-blogging-and-website.html
Webserver yang sering dipakai adalah direktori root, yaitu tempat yang sama dimana Anda meletakkan situs web utama / homepage "index.html".
File robots.txt adalah file teks dengan satu atau lebih record didalamnya. Tiap satu record adalah satu baris.
Contohnya seperti berikut :
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~user/
Untuk perintah disallow, anda harus memisahkan tiap directory baris. Misalnya anda ingin menolak robots beroperasi di /cgi-bin/ dan /tmp/ maka penulisannya tidak boleh digabung dalam satu baris menjadi :
Disallow: /cgi-bin/ /tmp/
Tanda bintang pada user-agent artinya semua robot.
Untuk mengizinkan semua robot mengakses semua bagian website dapat menggunakan perintah berikut.
User-agent: *
Disallow:
Untuk melarang robot tertentu dapat mengganti tanda bintang di user agent dengan nama robot yang ingin dilarang, contoh :
User-agent: BadBot
Disallow:
Mengetahui Aktivitas Kunjungan Robot
Cara untuk mengetahui bahwa situs anda dikunjungi robot adalah dengan mengecek log server di situs untuk melihat apakah ada yang mengakses dokumen dalam jumlah banyak namun waktunya singkat.
Ada banyak nama robot di Internet diantaranya sebagai berikut :
Acme.Spider
Alkaline
Anthill
Google bot
Yahoo bot
Bay Spider
BBot
BackRub
Arale
ASpider
AskJeeves
Aretha
Walhello apple
ArchitextSpider
Untuk melihat keseluruhan robot yang ada di Internet dapat melihat
Botsbrowser .
Anda dapat membuat file robots.txt dngan menggunakan :
1. Notepad / Wordpad ( Operating System Windows )
2. Textedit (Format > Buat Plains Teks > Simpan sebagai Barat) ( OS Macintosh )
3. Vi atau Emacs ( Linux )
Terkadang beberapa robot crawler tidak menghiraukan file robots.txt yang anda tulis, biasanya disebabkan oleh menggunakan aplikasi penulis perangkat lunak yang kurang berpengalaman.
Jadi, dalam menulis robots.txt harus sangat berhati-hati dan lakukan pengecekkan file tersebut secara berkala.