2009-01-20 11 views
6

Herhangi bir nedenle robots.txt dosyanızın hangi URL'lerin engellendiğini görmek için Google Web Yöneticisi Aracı'nın "Analiz et robots.txt" adresini kontrol ettiğimde, beklediğim gibi değil. İşte dosyanın başından snippet'idir: komut klasöründeGooglebot, Robots.txt'ye saygı göstermiyor

Sitemap: http://[omitted]/sitemap_index.xml 

User-agent: Mediapartners-Google 
Disallow: /scripts 

User-agent: * 
Disallow: /scripts 
# list of articles given by the Content group 
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx 
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 

şey doğru Googlebot'la Mediapartners-Google ikisi için engellenir. Googlebot Mediapartners-Google hattı 4. engellenirse Ve yine başka bir URL ikinci kullanıcı altında izin verilmeyen URL'ler dan koyarken komut satırından 7 engellenir diyor çünkü iki robotlar doğru yönergesini görüyoruz görebilirsiniz -ent yönergesi engellenmez! Benim yorum veya mutlak URL'ler öğelerden mahvediyorsun olmadığını merak ediyorum

...

Herhangi bir fikir takdir edilmektedir. Teşekkürler.

cevap

11

Göz ardı edilmelerinin nedeni, specification ürününün izin vermediği numaralı dosyada 3 girdilerinde tam URL'ye sahip olmanızdır. (Sadece göreceli yolları veya /) kullanarak mutlak yolları belirtmelisiniz. Aşağıdaki deneyin: önbelleğe alma gelince

Sitemap: /sitemap_index.xml 

User-agent: Mediapartners-Google 
Disallow: /scripts 

User-agent: * 
Disallow: /scripts 
# list of articles given by the Content group 
Disallow: /Living/books/book-review-not-stupid.aspx 
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 

, google robots.txt dosyasında ortalama her 24 saatte bir kopyasını geçmeye çalışır.

+0

Bu ilk satır doğru mu? http://www.sitemaps.org/protocol.php#submit_robots, site haritası konumunun tam URL olması gerektiğini belirtir. –

+0

Tam URL içeren site haritası tamam, ancak izin verme listeleriniz hala mutlak olmalıdır. –

+0

Aşağıda David Z'nin altında, bu formülasyon biraz daha açık olmaz mı ?: Tam URL'ye sahip site haritası tamam, ancak engelleme listeleri belge köküne dayalı göreli URL'ler olmalıdır. – tuk0z

-1

Bu değişikliği kısa bir süre önce robots.txt dosyanızda yaptınız mı? Benim durumumda bu google gerçekten uzun bir süre için o şeyi önbelleğe görünüyor.

0

En az bir hafta oldu ve Google en son 3 saat önce indirildiğini söylüyor, bu yüzden eminim yakın zamanda.

+1

Asıl soruyu (normalde EIDT'yi altta kalınca ek bilgileri takip ederek) asıl soruyu düzenlemekten daha iyi anlayabilirsiniz (kendi yorumunuzu cevaplamak yerine). – cletus

2

O mutlak URL'ler bu. robots.txt dosyasının yalnızca göreceli URI'ları içermesi gerekir; etki alanı, robots.txt dosyasının erişildiği etki alanına göre türetilir.