Robots.txt dosyası, web sunucunuza yerleştirilen basit bir metin dosyasıdır. Bu dosya, sizin site bilgilerinize ve dosyalarınıza ulaşmak için kullandığı ağ örümcekleriyle beraber dosyalarınıza ulaşmak için sizden izin talep eder. Eğer ağ örümceklerinin bu talebine evet derseniz dosyalarınıza ve bilgilerinize ulaşıp arama motoruna kayıt için gerekli işlemlere başlar ancak hayır derseniz böyle bir işlem gerçekleştirmez.
Temel robots.txt örnekleri
Bazı yaygın robots.txt kurulumları, aşağıda detaylı bir şekilde açıklanmıştır:
Tam erişime izin verme kodu: User-agent: *Disallow:
Tüm erişimi kapatma kodu: User-agent: *Disallow: /
Bir klasöre erişimi engelleme kodu: User-agent: *Disallow: /folder/
Bir dosyaya erişimi engelleme kodu: User-agent: *Disallow: /file.html
Neden robots.txt hakkında bilgi edinmelisiniz?
Robots.txt dosyasının yanlış kullanımı, sıralamanıza ciddi zarar verebilir. Bu sebepten bu işlemi yapmadan önce google ya da başka arama motorlarının ( sadece arama motorları değil, reklam botları, backlink botları herşeyi engelleyebilirsiniz) iyice anlamış ve kavramış olmanız gerekmektedir.
Robots.txt dosyası, örümceklerin web sayfalarınızı nasıl gördüğünü ve sayfalarınız ile nasıl etkileşimde bulunduğunu denetler. Kısacası bu kurallar ile sitenizin nasıl crawl edilip edilmeyeceği hakkında robotlara bilgiler vermenizi sağlar.
Bu dosya ve etkileşimde bulunduğu botlar, arama motorlarının nasıl işlediğinin temel kısımlarıdır.
İpucu: Robots.txt dosyanızın Google tarafından kullanılan önemli dosyaları engelleyip engellemediğini öğrenmek için Google Yönergeleri Aracını kullanın.
Arama motoru örümcekleri
“Googlebot” gibi bir arama motoru örümceğinin, bir sayfayı ziyaret ettiğinde baktığı ilk şey robots.txt dosyasıdır.
Robots.txt, sayfa veya dosyaya erişim izninin olup olmadığını öğrenmek istediği için bunu yapar. Robots.txt dosyası, bilgilere erişim için sisteme girilebileceğini söylüyorsa, arama motoru örümceği sayfa dosyaları için işleme devam eder.
Bir arama motoru robotuyla ilgili talimatlarınız varsa, o talimatları söylemelisiniz. Bu şekilde istediğiniz işlemleri gerçekleştirir.
Web siteniz için öncelikler
Herhangi bir internet sitesi sahibinin sahip olduğu robots.txt dosyası hakkında bir düzenleme söz konusu olduğunda yapması gereken üç önemli şey vardır:
- Bir robots.txt dosyasına ihtiyacınızın olup olmadığını belirleyin. Belki siteniz için hiç gerek olmayan bir durumdur.
- Eğer varsa, engellemeyi istemediğiniz erişim bilgilerinin sitenizin sıralamasına veya engellemek istediğiniz içeriklerinize zarar vermediğinden emin olun. Çok fazla organik trafik aldığınız bir sayfayı engellemek istemezsiniz değil mi ?
Bir robots.txt dosyanız olup olmadığını belirleme
Aşağıdaki internet sitesinden “robots.txt” dosyasına sahip olup olmadığınızı öğrenebilirsiniz:
www.siteadresi.com/robots.txt
İPUCU : Robots.txt dosyası, her zaman herhangi bir web sitesinde aynı yerde bulunur; bu nedenle, bir sitenin sisteminde robots.txt dosyasının olup olmadığını öğrenmek kolaydır. Yukarıda gösterildiği gibi bir alan adının sonuna “/robots.txt” eklemeniz yeterlidir.
Şayet bir dosyanız varsa, bu robots.txt dosyasıdır. Ya içindeki kelimeleri içeren bir dosyayı bulabilirsiniz, ya içinde kelime bulunmayan bir dosya bulabilirsiniz ya da hiç dosya bulamazsınız.
Önemli ! Robots.txt dosyanızın önemli dosyaları engelliyor olup olmadığını belirleyin.
Google, sayfalarınızı anlamak için işleme başladığında bu işlemini engelleyecek bir kaynak erişimi engeliyle karşılaşırsa bunun için sizi uyaracak. Bu durumu kontrol etmek için “Google Yönergeleri” aracını kullanabilirsiniz.
Erişim ve izniniz varsa, robots.txt dosyanızı test etmek için Google arama konsolunu kullanabilirsiniz. Bunu yapmak için ihtiyacınız olan talimatlar arama konsolunda bulunur.(Bunun için sisteme giriş yapmak zorundasınız).
Robots.txt dosyanızın engellemesini istemediğiniz şeyleri engellemez olup olmadığını tam olarak anlamak için, onun ne söylediğini anlamanız gerekir.
Sitenizde bir robots.txt dosyası olması bile gerekmeyebilir. Aslında bu durum, sık sık ihtiyaç duymadığınız bir durumdur.
Bir robots.txt dosyası olmasının isteme nedenleri:
- Arama motorlarından engellenmesi istenilen içeriklerin var olması. Örneğin arama sayfanız index alıyorsa, kötü niyetli kişiler sitenizde “adult” bir kelime arayabilir ve bunu indexletebilir. bu durum serp sonuclarında kötü bir algı oluşturur. + google’a spam bildiriminde bulunulursa google sitenize ceza dahi verebilir.
- Ücretli bağlantıların kullanılmak istenmesi veya robotlar için özel talimatlara ihtiyaç duyan reklamların kullanılması.
- Arama motorları üzerinde etkili arama örümceklerinin, sitelerin üzerindeki etkilerinin görülmek istenmesi.
- Bir sitenin henüz gelişme aşamasında olmasından dolayı henüz arama motoru dizinlerine eklenmesinin istenmemesi. Yeni açılacak sitelere SEO çalışmalarına başlamadan önce sık kullanılan bir durumdur
- Bazı durumlarda bazı Google yönergeleri konusunda yardım istenmesi.
Yukarıdaki durumların her biri diğer yöntemlerle kontrol edilebilir ancak robots.txt dosyası özel bir ilgi gerektirir ve sitenin arama motorlarına kayıt olması konusunda merkezi yerdir. Çoğu site sahibinin bir robots.txt dosyası oluşturması ve kullanması için gereken beceriye ve erişime sahip olması gerekir.
Bir robots.txt dosyasının istenmeme nedenleri:
- Basit ve hatasızdır, vakit ayırmaya değmez.
- İstenilen veya arama motorlarından engellenmesi gereken dosyaların olmaması.
- Trafik çeken gereksiz kelimelerden gelir elde ediliyor olması ( ne kadar doğru tartışılır)
Bir robots.txt dosyasının sisteminizde bulunması gerekmez.
Bir robots.txt dosyanız olmadığında Googlebot gibi arama motoru robotlarının sitenize tam erişim hakkına sahip olacakları anlamına gelir. Bu, çok yaygın olan basit ve normal bir yöntemdir.
Robots.txt dosyası nasıl oluşturulur?
Bu dosyanın kodlarını kendiniz yazabilir veya internet kaynaklarından gerekli kodları kopyalayarak bir robots.txt dosyası oluşturabilirsiniz.
Bu dosya, sadece bir metin dosyasıdır, yani not defterini veya başka herhangi bir düz metin düzenleyicisini kullanarak bir tane robots.txt dosyası oluşturabilirsiniz. Ayrıca bir kod düzenleyicisinde de bu dosyayı oluşturabilirsiniz.
“Bir robots.txt dosyası hazırlıyorum.” diye düşünmek yerine, “Bir not yazıyorum.” diye düşünün; bunlar hemen hemen aynı işlemdir.
Robots.txt dosyasında ne yazmalıdır?
Bu, ne yapmak istediğinize bağlı. SEO çalışmalarınızı sürdürürken dikkat etmeniz gereken en önemli kriterlerden biridir.
Tüm robots.txt talimatları, aşağıdaki üç sonuçtan biriyle sonuçlanır:
Tam izin ver: Tüm içerik taranabilir.
Tam izin verme: Hiçbir içerik taranmayabilir.
Koşullu izin: robots.txt dosyasındaki yönerge, belirli içeriği tarama yeteneğini belirler.
Her birini açıklamak gerekirse:
Tam izin – tüm içerik taranabilir
Çoğu kişi, robotların web sitelerindeki her şeyi ziyaret etmesini ister. Sizin durumunuz buysa ve robotun sitenizin tüm bölümlerini arama dizinine eklemesini istiyorsanız, robotların hoş karşılandıklarını bilmelerine izin veren üç seçenek var.
1) Bir robots.txt dosyası bulunmuyor
Web sitenizde bir robots.txt dosyası yoksa bu durum robotlar için güzel bir haberdir.
Öncelikle Googlebot gibi bir robot sitenize ziyarete gelir. Sisteminizdeki robots.txt dosyasını arar. Sisteminizde robots.txt dosyası olmadığı için onu bulamaz. Bu sayede sitenizi ziyarete gelen robot, sitenizde özgürce gezebileceğini ve istediği her şeyi arama motorlarına kayıt edebileceğini düşünür ve istediği her şeyi yapar.
2) Boş bir dosya oluşturun ve bu dosyayı robots.txt olarak adlandırın.
Web sitenizde içeriğinde hiçbir şey yazmayan bir robots.txt dosyası varsa robotlar bu duruma çok sevinir. Googlebot sitenize ziyarete gelir, robots.txt dosyasını arar, sisteminizde bu dosya boş bir şekilde bulunduğu için onu bulur ve içeriğini okumaya başlar. İçeriği boş olan robots.txt dosyanız sayesinde robot kendini tıpkı birinci durumdaki gibi özgür hisseder ve istediği her şeyi yapar.
3) Robots.txt adlı bir dosya oluşturun ve aşağıdaki iki satırı yazın:
User-agent: *
Disallow:
Web sitenizde bu talimatları içeren bir robots.txt varsa Googlebot’un kaderi yine aynı olur. Öncelikle sitenizi ziyaret eder, robots.txt dosyasını arar, sisteminizde böyle bir dosya bulunduğu için onu bulur, içeriği kontrol eder. İçerikte yukarıda yazan kod bulunduğu için onu okumaya başlar ve kod satırlarını sırasıyla takip eder. Bu kodun anlamı olan “Sitemde istediğin her şeyi dilediğin gibi yapabilirsin!” talimatı doğrultusunda tıpkı yukarıda bahsettiğimiz birinci ve ikinci adımlardaki gibi sitenizi arama motorlarına kayıt etme işlemine başlar.
Tam izin verme – içerik taranamayabilir
Uyarı: Bu, Google’ın ve diğer arama motorlarının web sayfalarınızı dizine ekleyemeyeceği veya görüntülemeyeceği anlamına gelir.
Sitenizdeki saygın arama motorları örümceklerini engellemek için robots.txt dosyanızdaki talimatları uygulamanız gerekir:
User-agent: *
Disallow: /
Bu kod, web sayfalarınızın hiçbirinin dizine eklenmemesine neden olacağı için bunu yapmanız önerilmez.
Robot.txt yönergeleri ve anlamları
Burada, farklı kelimelerin bir robots.txt dosyasında ne anlama geldiğinin açıklaması verilmiştir
User-agent
“Kullanıcı aracı” kısmı, gerekirse belirli bir robot için yön belirlemek adına kullanılır. Dosyanızda bunu kullanmanın iki yolu vardır:
- Tüm robotlara aynı şeyi söylemek isterseniz User-agent: * kodunu kullanın.
Yukarıdaki kod, “Bu yönergeler tüm robotlar için geçerlidir!” anlamına gelmektedir.
Belirli bir robota bir şeyler söylemek isterseniz aşağıdaki talimatı vermeniz gerekmektedir.
User-agent: Googlebot
Yukarıdaki kod “Bu yönergeler yalnızca Googlebot’a uygulanır!” anlamına gelmektedir.
Disallow (İzin verme)
“İzin Verme” kısmı, robotlara hangi klasörlere bakmamaları gerektiğini söylemek için vardır. Örnek vermek gerekirse; arama motorlarının sitenizdeki fotoğrafları dizine eklemesini istemiyorsanız, o fotoğrafları bir klasöre yerleştirebilir ve izin verilen dosyalar kısmından hariç tutabilirsiniz.
Diyelim ki tüm bu fotoğrafları “fotoğraflar” isimli bir klasöre koydunuz. Şimdi arama motorlarına bu klasörü dizinlememesini söylemek istiyorsunuz.
İşte robots.txt dosyanızın şu şekilde kodlanması gerekiyor:
User-agent: *
Disallow: /photos
Robots.txt dosyanızdaki bulunan bu iki kod satırı, robotların fotoğraf klasörünüzü ziyaret etmesini önler. “User-agent *” bölümü “Bu, tüm robotlar için geçerli!” anlamını içeriyor. “Disallow: / photos” bölümü, “Fotoğraflarım klasörünü ziyaret etmeyin veya bu klasör dizini hakkında bir icraatta bulunmayın.” diyor.
Googlebot’a özgü talimatlar
Google’ın arama motorunu indekslemek için kullandığı robota Googlebot denir. Bu bot, diğer arama motorları botlarından daha yetenekli bir bottur. “Kullanıcı adı” (User-name) ve “İzin Verme” (Disallow) ye ek olarak, Googlebot, İzin Ver (Allow) talimatını da kullanır.
Allow (İzin ver)
“İzin ver” talimatları, bir robota bir klasöre ait bir dosyayı görmenin iyi olduğunu söylemenize izin verir.
“İzin Verilmedi” talimatının etkisi başkadır. Bunu sizlere göstermek için, robotun fotoğraflarınızı ziyaret etmemesini veya dizinde bulunmamasını söyleyen aşağıdaki örneği ele alalım. Tüm fotoğrafları “fotoğraflar” adlı bir klasöre yerleştirdik ve buna benzeyen bir robots.txt dosyası yaptık.
User-agent: *
Disallow: /photos
Şimdi Googlebot’un dizine eklemesini istediğiniz o klasöre araba.jpg adlı bir fotoğrafın olduğunu varsayalım. İzin Ver: talimatıyla, Googlebot’a bunu yapmasını söyleyebiliriz.
User-agent: *
Disallow: /photos
Allow: /photos/araba.jpg
Bu, Googlebot’a “fotoğraf” klasörünün aksine hariç tutulmasına rağmen fotoğraf klasöründeki “araba.jpg” dosyasını ziyaret edebileceğini söyler.
Robots.txt dosyasını test etme
Tek bir sayfanın robots.txt tarafından engellenip engellenmediğini öğrenmek kolaydır. Google için önemli dosyaların engellenip engellenmediğini ve ayrıca robots.txt dosyasının içeriğini görüntüleyip görüntülemediğini öğrenmek için Web Yöneticisi Araçları sekmesini kullanabilirsiniz. Ya da direkt olarak https://www.google.com/webmasters/tools/robots-testing-tool bu linke tıklayabilirsiniz.
Onur
tam olarak kullanmayı öğrenmeden kullanmamak gerek bot engelleme işlerini
Onur
tam olarak kullanmayı öğrenmeden kullanmamak gerek bot engelleme işlerini
Rıdvan Coşkun
dinamik içeriklerimizdeki alt sayfalara disallow yapmayı istersek bunu nasıl yapabiliriz. Örneğin websitemiz.com/1/2/3/ şeklindeki bir örnekteki 1 ve 2 numaralı sayfaların dizine eklenmesini istiyoruz ancak 3 numaralı sayfaların dizine eklenmesini disallow yaparak engellemek istiyoruz. Bunu nasıl yaparız? 1 ve 2 numaralı sayfaların URL bağlantılarının dinamik şekilde değiştiğini düşünerek çözümü göstermenizi rica ediyorum.