Robots.txt Dosyasının Hayati Görevi
Kısaca, robots.txt dosyası, bir siteye gelen Googlebot, Bingbot, YandexBot vb. örümceklerin "hangi dizinlere/sayfalara girmeye hakları olup, hangilerine yasaklı olduklarını" dikte eden "Köksel (Root) Kapı Bekçisi"dir. Sunucunun `public_html` kısmına atılır.
1. Neden Kullanılır? (Crawl Budget / Taranma Bütçesi)
Google sunucularının sınırsız bir bilgisini olduğunu varsayarsak bile, sizin trilyonlarca sayfanızı her gün her saat okumazlar. Size bir enerji kotası (Bütçe) tahsis edilir. Eğer bot siteye girip yüzlerce anlamsız sayfayı, (Admin paneli, sepet linkleri vb) okuyarak bütçesini tüketirse asıl indekslenmesi gereken muhteşem YENİ SEO yazınızı, ertesi aya bırakabilir.
2. Örnek Doğru Sentaks ve Kullanımlar
User-agent: *
Disallow: /wp-admin/
Disallow: /sepetim/
Disallow: /?s=
Allow: /wp-admin/admin-ajax.php
Açıklama: `User-agent: *` Dünyadaki tüm botlara konuşur. `wp-admin` girilemez, `sepetim` girilemez. Site içi aramalarından (`?s=`) çıkan sonuçlar Google'da dizine eklenmesin (Duplicate content riskinden korur) gibi çok katı ve yerinde kurallardır.
3. Nofollow ve Noindex ile Karıştırmayın
Robots.txt indekslenmeyi durdurmaz, sadece "Crawl (Tarama)"yı durdurur. Bir sayfanın Google listesinde GÖZÜKMEMESİNİ istiyorsanız o sayfanın içine HTML <meta name="robots" content="noindex"> eklemelisiniz. Yoksa sayfa disallow edilse dahi harici kaynaklardan gelen URL referanslarıyla Google dizininde link halinde (Başlıksız) listelenebilir.