ROBOTS TEXT OLUŞTURMA
Bu makalemde Robots Text'in nasıl oluşturulduğu hakkında kısa bir kaç bilgi vereceğim.
Robots Text Giriş
Robots.txt kök dizinine yerleştirilen çok basit bir metin dosyasıdır. Bir örnek www.yourdomain.com / robots.txt olacaktır. Bu dosya ziyaret ettikleri ve dizin için izin verilen sitenizin hangi alanlarda arama motoru ve diğer robotları söyler.
Sen sadece sitenizde ve sadece kök dizini (ana sayfası olduğu) bir robots.txt olabilir:
OK: www.yourdomain.com / robots.txt
KÖTÜ - Çalışmaz: alt / www.yourdomain.com / robots.txt
Tüm büyük arama motorları bu saygı, ve doğal olarak en istenmeyen (spam için e-posta toplayıcıları) yok.Eğer gerçekten sitenizde güvenlik istiyorsanız, aslında oldukça işi yapmak için robots.txt dosyasını güvenen daha, bir korumalı dizindeki dosyaları koymak gerekir. Bu robotlar değil, meraklı gözlerden güvenlik için rehberlik var.
Bir Robots.txt neye benziyor?
En basit olarak, bir robots.txt dosyası aşağıdaki gibidir:
User-agent: *
Disallow:
Disallow:
Bu bir yerde onlar (vermemek şey) istiyorum gitmek için tüm robotlar (kullanıcı arayüzleri) söyler.
Bu, diğer taraftan, tüm uyumlu robotları tutar:
User-agent: *
Disallow: /
Disallow: /
Gördüğünüz gibi, aralarındaki tek fark tek bir çizgi ("/") 'dir. Eğer istemedim zaman yanlışlıkla bu çizgi kullanırsanız Ancak, arama motoru sıralamalarını yok bulabiliriz. Çok dikkatli olun.
Kendi robots.txt dosyası oluşturma olup olmadığını bilmek önemli bir şey joker (*) kullanıcı aracısıdoğrultusunda kullanılmasına rağmen, bu izin vermeyecek doğrultusunda izin verilmez olmasıdır. Örneğin, gibi bir şey olamaz:
# Broken robots.txt - Eğer gerçekten istediğiniz ve bir olması mantıklı olsa bile, izin vermemek doğrultusunda * sembolü kullanamazsınız (Google ve MSN bu bir istisna vardır - Aşağıdaki Daha fazla bilgi)
User-agent: *
Disallow: / sunumlar / * ppt.
User-agent: *
Disallow: / sunumlar / * ppt.
İşte konuyla ilgili resmi bilgi: RobotsTxt.org
Ayrıca ilginizi çekebilir:
ve Robot Cop (bot davranış zorlar Sunucu modülü)
GÜNCELLEME: Eğer kullanıyorsanız Google Site Haritaları (ve sen-meli), onlar şimdi bir robots.txt doğrulayıcı dahil ettik - robots.txt dosyası Google tarafından doğru anlaşılması olduğundan emin yapacaktır.
Ön Yapımı Robots.txt Dosyalar
Zaten önceden yapılmış ve web sitenizin kök içine bırakmaya hazır basit bir dosya istiyorsanız, (sağ tıklayın ve "farklı kaydet" seçin) buraya alabilirsiniz:
Tüm Robotlar izin ver
Tüm Robotlar Çöp
Cgi-bin ve görüntüleri dizin DIŞINDA her yerde Tüm Robotlar izin ver
Sadece bilinen Major Arama Motorları izin ver
(Not: bu listeleri kontrol etmek için bazı dizinleri tarafından kullanılan bazı iyi robotlar izin vermez - dikkatli olun)
(Not: bu listeleri kontrol etmek için bazı dizinleri tarafından kullanılan bazı iyi robotlar izin vermez - dikkatli olun)
Eğer sunucu bu yükledikten sonra, ziyaretçilerin (arama motorları gibi) okuyabilirsiniz böylece dosya izinlerini ayarlamak emin olun.
Binbaşı bilinen Örümcekler / tarayıcılar
Googlebot (Google), Googlebot-Image (Google Görsel Arama), MSNBot (MSN), Slurp (Yahoo), Yahoo-Bloglar, Mozilla/2.0 (compatible; Jeeves / Teoma Ask), Gigabot (Gigablast), Bodur (Web Scrub ), Robozilla (DMOZ), Twiceler (Cuil)
Arama Motoru Paletli Özel Komutlar
Google yıldız karakterlerinin kullanımına izin verir. Disallow desen "*" herhangi bir karakter dizisi maç için, ve desenler bir adının sonuna belirtmek için "$" in sona erebilir içerebilir. Belirli bir dosya türünü (.. Örneğin, jpg değil gif resimleri) tüm dosyaları kaldırmak için, aşağıdaki robots.txt girişini kullanabilirsiniz:
User-agent: Googlebot-Image
Disallow:. / * Gif $
Disallow:. / * Gif $
Bu Googlebot ve google-görüntü örümcekler için de geçerlidir.
Görünüşe göre tarama gecikme komutu desteklemez.
Yahoo
Yahoo da dahil olmak üzere birkaç özel komutlar vardır:
Tarama-gecikmesi: "xx" ardışık paletli girişler arasındaki saniye cinsinden minimum gecikme xx öğretim,.Yahoo varsayılan tarama-gecikme değeri 1 saniyedir. Paletli oranı sunucu için bir sorun ise, 5 veya 20 kadar gecikme kurmak veya sunucu için rahat bir değeri olabilir.
Yahoo-Blogs/v3.9 için 20 saniye tarama-gecikmesini ayarlama gibi görünecektir:
Yahoo-Blogs/v3.9 için 20 saniye tarama-gecikmesini ayarlama gibi görünecektir:
User-agent: Yahoo-Blogs/v3.9
Tarama-gecikmesi: 20
Tarama-gecikmesi: 20
Ask / Teoma
Tarama gecikme komutunu destekler.
MSN Search
Tarama gecikme komutu destekler
Ayrıca joker davranış sağlar
User-agent: msnbot
Disallow:. / * [Dosya uzantısı] $
Disallow:. / * [Dosya uzantısı] $
("$" Dosyanın sonuna ilan için gereklidir)
Örnekler:
User-agent: msnbot
Disallow:. / * PDF $
Disallow: / * jpeg $.
Disallow: / * exe $.
Disallow:. / * PDF $
Disallow: / * jpeg $.
Disallow: / * exe $.
Cuil
Tarama gecikme komutunu destekler.
Neden bir Robots.txt istersiniz?
Bir robotlar sitenize ziyaret kontrol etmek isterim çeşitli nedenleri vardır:
- Bu bant genişliği tasarrufu sağlar - hiçbir yararlı bilgi (cgi-bin, resimler, vb) olduğu yerde örümcek alanları ziyaret edecek
- Bu koruma bir çok temel düzeyde verir - çok iyi bir güvenlik olmasa da, kolayca arama motorları üzerinden kolayca erişilebilir istemiyorum yapmayı insanları devam edecektir. Aslında sitenizi ziyaret ve Google, MSN, Yahoo veya Teoma bulduktan yerine dizine gitmek zorunda.
- Bu günlükleri temizler - bir arama motoru bu günde birkaç kez olabilir robots.txt, ister sitenizi ziyaret her zaman. Eğer bir hesabınız yoksa bu hata her zaman bir "404 Not Found" üretir. Bu ayın sonunda gerçek hataları bulmak için bu tüm zorla okumak zor.
- Bu yinelenen içerik ile ilgili spam ve cezalar önleyebilir. Sağlar yüksek bir hız ve sitenizin düşük hızlı sürümü veya reklam kampanyaları ile kullanılmak üzere tasarlanmış bir açılış sayfası olduğunu varsayalım. Sitenizde bu içeriği çiftleri diğer içeriğin Eğer bazı arama motorları ile kötü lehine kendinizi bulabilirsiniz. Sen endeksli olmaktan içeriği engellemek için robots.txt dosyasını kullanın ve bu nedenle sorunları önleyebilirsiniz. Bazı yöneticileri de "test" ya da henüz kamu görüntüleme için hazır olmayan bir web sitesinin "kalkınma" alanlar hariç için kullanabilirsiniz.
- İyi programlama politikası var. Artıları bir robots.txt var. Amatörde yok. Sitenizde ne grubunda olmak istiyorsun? Bu "gerçek" bir neden daha ama rekabetçi alanlarda veya bir iş başvurusu bir fark yaratabilir bir ego / görüntü şey daha. Bazı işverenler onlar da, diğer, daha önemli şeyler bilmek olmayabilir varsayımına, birini kullanmak nasıl bilmiyordum bir webmaster işe değil düşünebilirsiniz.Birçok bu birini kullanmak değil özensiz ve profesyonelce hissediyorum.
- . Onsuz Google Web Yöneticisi Araçları alamayan için Google'ın sitenizi doğrulamak için, bir çalışma, geçerli robots.txt dosyası olması gerekir - bu araç tarafından oluşturulan robots.txt dosyasını doğrular. Beri Web Yöneticisi Araçları , dünyanın en popüler arama motoru sitenizin ne düşündüğünü içgörü için çok değerlidir, onu kullanmak iyi bir fikirdir.
Robots.txt SSS - Sorunlar, Gerçekler ve Kurgu
Kendi başına, bir robots.txt dosyası zararsız ve aslında faydalıdır. Ancak, iş web sitenizin bölgelerinden uzak tutmak için bir arama motoru anlatmaktır. Eğer misconfigure bu, yanlışlıkla spidered ve dizine sitenizi engelleyebilirsiniz.
Bu robots.txt dosyasında bir hata nedeniyle ve aynı zamanda sitenin dizin yapısı değişti ve robots.txt güncellenen henüz bir site yeniden sonrasında insanlara oldu. Her zaman büyük bir siteyi yeniden tasarlamayı sonra robots.txt kontrol edin.
Bir robots.txt dosyası ve bu konuda, robotlar meta, bir web sitesinin spidering ve indeksleme hızlandırmak NO ETKİSİ vardır, ve spidering derinliği veya genişliği bir etkisi bir site.
Bir arama motoru örümcek bir şeyler yapmak için bir komut veremiyor - sadece bir şey yapmak değil söyleyebilirim.
Bazı insanlar "paletli", "robot" ve "örümcek" arasında karışık:
- Robot: şeyler yapmak için web üzerine söner herhangi bir program. Bu arama motoru tarayıcılarının, aynı zamanda birçok diğer programlar, e-posta kazıyıcılar gibi, saha test ve benzeri içerir.
- Paletli: Bu arama motorları kullandığınız robot özel bir tür için kullanılan bir terimdir.
- Örümcek: Bu bir terimdir birçok profesyonel SEO kullanımı - bu "paletli" ile eşanlamlı, ama görünüşe göre tehdit edici olmayan ve pazarlama dostu "paletli" olarak sondaj gibi değildir. Ben alışkanlık bunu kullanma eğiliminde.
Güvenlik Sorunu: Bir robots.txt web siteniz için güvenlik sağlamak üzere tasarlanmamıştır - insanlar onları görmezden. Ayrıca, aslında onlarla ek bir olası güvenlik sorunu vardır. Şimdi size "secretsauce 'olarak adlandırılan sitenize gizli bir dizin olduğunu varsayalım. Bunu size robots.txt için bu dizin eklemek kadar spidered istemiyorum.
Sorun artık herkesin robots.txt dosyasını aramak ve insanların bu dizine bakarak istemediğiniz görebilirsiniz olduğunu. Eğer bir hacker olsaydı Açıkçası, bu ilk durağınız olacaktır. Ayrıca, hariç olan yol ise "/ secretfiles / secretsauce /" Aynı korsan şimdi siz de "secretfiles", adlı başka bir dizin olduğunu bilir. Bu site yapısı ve tasarımı hakkında bir hacker ayrıntıları anlatmak için iyi bir fikir asla.
Eğer bilgi insanları uzak tutmaya çalışıyorsanız robots.txt dosyasını Tamam diyor bile, sadece insanlar gibi ziyaret robotlar engeller sitenizde gerçek dosya ve klasör düzeyinde güvenlik, kullanmanız gerekir.
Ben sadece bu o görüntüler, cgi-bin, vs ve geri kalanı için dosya güvenlik kullanmak gibi kritik olmayan ve normal dizinleri ile başa çıkmak için robots.txt ayarlayın tavsiye ederiz. Bu şekilde, robotlar özellikle klasör ve dosyaları dışında olmasa bile, onlar etkili dosya izinleri tarafından dışlanır. Sadece dosya, sayfa ve bu aynı sayfaları, test sayfaları ve demolar gibi değil, robotlar insanları, için kullanılabilir olması amaçlanmıştır dizinleri dışlamak için robots.txt (ve robotlar meta) kullanın.
Temel kural: Eğer tüm web siteleri ve dizinleri robotlar kısıtlamak istiyorsanız, robots.txt dosyasını kullanın.Tek bir sayfadan robotlar kısıtlamak istiyorsanız, robotlar meta kullanın. Tek bir bağlantı spidering kısıtlamak için arıyorsanız, bağlantı "nofollow" özniteliği kullanabilirsiniz.
| Parçalı | İyi Yöntem |
| Web siteleri ya da müdür | robots.txt |
| Tek Sayfa | robotlar meta |
| Tek Link | nofollow özniteliği |
0 yorum:
Yorum Gönder