2010-11-24 7 views
5

Sadece scrapy kurulumu ve çalıştırması var ve harika çalışıyor, ama iki (noob) soru var. İlk önce şunu söylemeliyim ki, sitemi scrapy ve spidering için tamamen yeni.Scrapy Django Limit linkleri taranıyor

  1. Eğer bağlantıların sayısını sürünerek sınırlamak miyim? Sayfalama kullanmayan bir sitem var ve sadece kendi sayfalarında çok fazla bağlantı (taramamı) listeler. İlk 10'unu taramaya ihtiyacım olduğunda, tüm bu bağlantıları taradığım için kendimi kötü hissediyorum.

  2. Birden çok örümceği aynı anda nasıl çalıştırıyorsunuz? Şu anda scrapy crawl example.com komutunu kullanıyorum, fakat example2.com ve example3.com için de örümceklerim var. Tüm örümceklerimi tek bir komutla çalıştırmak istiyorum. Mümkün mü? 1. için

+0

Bir sitenin tümünün bir defa çizilmesi sizi bu siteden engellenebilir ve kötü/kaba bir uygulamadır. Scrapy eşzamanlıdır, böylece birden çok bağlantıyla bir kerede aynı anda vurur. Zaman aşımı ayarı için yapılandırma ayarlarına bakın. –

+0

İkinci sorum hakkında herhangi bir fikrin var mı? Muhtemelen gerçekten eksik olan bir şey gibi görünüyor. – imns

+0

Birden çok örümceği aynı anda çalıştırmak için: scrapy crawl example.com example2.com example3.com –

cevap

2

: kullanmayın kuralları bağlantıları çıkartabilir ve takip ayrıştırma fonksiyonu ve verim Kuralınızı yazmak veya İstekler nesne dönmek bağlıyor. 2. için

: