14/7/2007 - Robots.txt Nasıl kullanılır???
Nedir bu robots.txt dedikleri?
Arama motorları, belki de
sitenizin ziyaretçilerinin büyük bir bölümü onlar sayesinde sizi buluyorlar ve
takip etmeye başlıyorlar.
Bazen arama motorlarına sitenizi siz kaydetmek
için başvuruyorsunuz, bazen de arama motorları Robot veya Bot denilen
uygulamalarla sizin sitenizi buluyorlar. Bu bulma işleminde ise sitenizde
bulunan her linki özenle tarayıp kendi veritabanlarına kaydediyorlar. Bu sayede
arama sonuçlarında sitenizde ne var ne yok ziyaretçileriniz öğrenebiliyor,
bulabiliyor. Ancak bazı durumlarda sitenizi indeksleyen bu robotlara
hükmetmek isteyebilirsiniz: Parola koruması olmayan fakat çoğu kişinin de
görmesini istemeyeceğiniz bir sayfanız olabilir, Bazı sayfalarınızdaki
programların ve içerik sayılamayacak bilgilerin (cgi-bin dizini gibi)
taranmasını istemeyebilirsiniz, Ya da sadece fazla bandwidth kaybetmek
istemeyip taramanın yapılmamasını isteyebilirsiniz. Bu gibi durumlarda
robotlara hükmetmek için elinizde bir fırsat bulunuyor: robots.txt dosyası. Bu
dosya sitenizin ana dizininde bulunur ve arama motorlarının gönderdikleri
robotlara bazı komutlar verir. Örneğin bu dosyadaki bir satır ile www.siteniz.com/gizli
adresinin arama motorlarında çıkmamasını sağlayabilirsiniz. Sitenize ftp ile
bağlandığınızda eğer robots.txt adında bir dosya yoksa bunu siz de
oluşturabilirsiniz. Eğer böyle bir dosya yoksa her robot tüm site içeriğini
indeksleyecektir.
Basit olarak robots.txt dosyasının içinde şu iki satır
bulunur:
User-agent: *Disallow: /
Burada User-agent: satırı ve
sonrasında gelen * işareti "Tüm robotlara alttaki komutu uygula" anlamına
gelmektedir. Disallow: ise Türkçe karşılığıyla "İzin verme" demek olup, akabinde
gelen / işaretiyle "tüm site içeriğini indeksleme" komutuna karşılık gelir.
Örnek olarak Google arama motorundan gelecek robotun, bizim sitemizdeki
/gizli_bilgiler klasöründeki hiçbir içeriği taramamasını istiyoruz. Bunun için
kullanmamız gereken komut satırı:
User-agent: Googlebot
Disallow: /gizli_bilgiler/
olacaktır. /gizli_bilgiler/
yazmamızdaki neden ise baştaki / işareti kök dizini, sondaki / işaret ise
gizli_bilgilerin bir dizin olduğunu vurgulamak içindir. Eğer siz sadece bir
dosyayı indeksletmemek isterseniz, Disallow: /gizli_dosya.html satırını da
kullanabilirsiniz.
robots.txt dosyası hakkında daha fazla bilgiyi
http://www.robotstxt.org
adresinden alabilirsiniz.
http://www.robotstxt.org/wc/active.html
adresinden de şuan için bilinen tüm robotların isimlerine ulaşabilir, az önceki
örnekte yaptığımız gibi sadece bazı robotların bazı sayfalara ulaşamamasını
sağlayabilirsiniz.
Robots.txt webmasterlerin botları sitelerine
çekebilmeleri için en kolay yöntemlerden bi tanesidir.bazı arkadaşlar bu
robots.txt dosyasını oluşturmakta zorlanırlar.En kolay yoldan robots.txt
oluşturacağınız bir site adresinizi sizlerle paylaşmak istiyorum. Listede seçmek
istediğiniz botların karşısındaki Allowed seçeneğini işaretleyin.. Yasak koymak
istediğiniz klasörleride alt kısımdaki kutucuklarda
ayarlayabilirsiniz.
Burada
|