ÖYLESİNE BİR TUTKU

14/7/2007 - Robots.txt Nasıl kullanılır???

Nedir bu robots.txt dedikleri?

Arama motorları, belki de sitenizin ziyaretçilerinin büyük bir bölümü onlar sayesinde sizi buluyorlar ve takip etmeye başlıyorlar.

Bazen arama motorlarına sitenizi siz kaydetmek için başvuruyorsunuz, bazen de arama motorları Robot veya Bot denilen uygulamalarla sizin sitenizi buluyorlar.
Bu bulma işleminde ise sitenizde bulunan her linki özenle tarayıp kendi veritabanlarına kaydediyorlar. Bu sayede arama sonuçlarında sitenizde ne var ne yok ziyaretçileriniz öğrenebiliyor, bulabiliyor.
Ancak bazı durumlarda sitenizi indeksleyen bu robotlara hükmetmek isteyebilirsiniz:
Parola koruması olmayan fakat çoğu kişinin de görmesini istemeyeceğiniz bir sayfanız olabilir,
Bazı sayfalarınızdaki programların ve içerik sayılamayacak bilgilerin (cgi-bin dizini gibi) taranmasını istemeyebilirsiniz,
Ya da sadece fazla bandwidth kaybetmek istemeyip taramanın yapılmamasını isteyebilirsiniz.
Bu gibi durumlarda robotlara hükmetmek için elinizde bir fırsat bulunuyor: robots.txt dosyası. Bu dosya sitenizin ana dizininde bulunur ve arama motorlarının gönderdikleri robotlara bazı komutlar verir. Örneğin bu dosyadaki bir satır ile
www.siteniz.com/gizli adresinin arama motorlarında çıkmamasını sağlayabilirsiniz. Sitenize ftp ile bağlandığınızda eğer robots.txt adında bir dosya yoksa bunu siz de oluşturabilirsiniz. Eğer böyle bir dosya yoksa her robot tüm site içeriğini indeksleyecektir.

Basit olarak robots.txt dosyasının içinde şu iki satır bulunur:

User-agent: *Disallow: /

Burada User-agent: satırı ve sonrasında gelen * işareti "Tüm robotlara alttaki komutu uygula" anlamına gelmektedir. Disallow: ise Türkçe karşılığıyla "İzin verme" demek olup, akabinde gelen / işaretiyle "tüm site içeriğini indeksleme" komutuna karşılık gelir.

Örnek olarak Google arama motorundan gelecek robotun, bizim sitemizdeki /gizli_bilgiler klasöründeki hiçbir içeriği taramamasını istiyoruz. Bunun için kullanmamız gereken komut satırı:

User-agent: Googlebot

Disallow: /gizli_bilgiler/

olacaktır. /gizli_bilgiler/ yazmamızdaki neden ise baştaki / işareti kök dizini, sondaki / işaret ise gizli_bilgilerin bir dizin olduğunu vurgulamak içindir. Eğer siz sadece bir dosyayı indeksletmemek isterseniz, Disallow: /gizli_dosya.html satırını da kullanabilirsiniz.

robots.txt dosyası hakkında daha fazla bilgiyi
http://www.robotstxt.org adresinden alabilirsiniz.

http://www.robotstxt.org/wc/active.html adresinden de şuan için bilinen tüm robotların isimlerine ulaşabilir, az önceki örnekte yaptığımız gibi sadece bazı robotların bazı sayfalara ulaşamamasını sağlayabilirsiniz.



Robots.txt webmasterlerin botları sitelerine çekebilmeleri için en kolay yöntemlerden bi tanesidir.bazı arkadaşlar bu robots.txt dosyasını oluşturmakta zorlanırlar.En kolay yoldan robots.txt oluşturacağınız bir site adresinizi sizlerle paylaşmak istiyorum. Listede seçmek istediğiniz botların karşısındaki Allowed seçeneğini işaretleyin.. Yasak koymak istediğiniz klasörleride alt kısımdaki kutucuklarda ayarlayabilirsiniz.

 

 

Burada


Yorum (0) :: Yorum yaz! :: Bağlantı

<- Son Sayfa :: Sonraki Sayfa ->

Hakkımda

günden geriye kalanlar burada yansıyor

Kategoriler

  • BILGISAYAR DUNYASI
  • BILIM VE TEKNOLOJI
  • BLOG DUNYASI
  • CEP DUNYASI
  • CINSELLIK
  • EGLENCE
  • ERRKEEKK DUNYASI
  • GEREKLI BILGILER
  • GEREKSIZ BILGILER
  • GONUL TELIMIZ
  • HAYAT DENEN DUZENEK
  • INANILMAZ OLAYLAR
  • ITIRAFLAR
  • KADIN DUNYASI
  • KNIGHT ONLINE DUNYASI
  • KORKU yussuuuf yusuf
  • MAGAZIN flas flas flas
  • MOVIE DOWNLOAD
  • MSN MESSANGER
  • MUZIK OLMADAN OLURMU
  • ORTAYA KARISIK
  • OYUN DOWNLOAD
  • PHOTOSHOP DUNYASI
  • PHOTOSHOP FIRCALARI
  • PROGRAM DOWNLOAD
  • RESIMLI PROGRAM ANLATIMLARI
  • SAGLIKLI YASAM
  • SIIRLI RESIMLER
  • TURK TARIHI
  • VIDEOLARIM
  • VIRUS PROGRAMLARI
  • WALLPAPER DUNYASI
  • Arkadaşlarım