Birkaç haber portalı web sitesinden haber resimleri çekmek için Scrapy'ye dayanan bir web tarayıcısı oluşturmak istiyorum. There is paletli istiyorum:Sonsuza kadar çalıştırmak için Scrapy dayalı bir web tarayıcısı nasıl oluşturulur?
Çalıştır sonsuza
o güncellemeleri almak için bazı portal sayfalarını yeniden ziyaret periyodik edecek demek.
Zamanlama öncelikleri.
Farklı türde URL'lere farklı öncelikler verin. Çoklu iş parçacığı Ben scrapy belgesini okudum ama listede şeyle ilgili bir şey bulamadım
getirme
(belki yeterince dikkatli değilim). Burada nasıl yapılacağını bilen var mı? ya da sadece onun hakkında bir fikir/örnek verin. Teşekkürler!
Teşekkür! Anlayışımda, Örümcekler "tek seferlik" iş için çalışıyor gibi görünüyor (sadece belirtilen her şeyi tara ve bırak). Yani uzun süren bir paletli isterim, uygulamayı kendim yazmalı ve işi yapmak için örümcek çağırmalıyım. Scrub içindeki uzun süreli mantığı, middleware ya da başka bir şeyle uygulamak kolay değil, değil mi? – superb
Örümcek Middleware katmanında yeniden örümcek mantığını uygulayabilirsiniz, ancak ilkel maddeler bunun için çok uygun görünmüyor ve benim hislerim, uygulama katmanı mantığını sunuş seviyesine itiyor olmanızdır. OSI terminolojisini kötüye kullanmasına izin verildi). http://doc.scrapy.org/topics/spider-middleware.html – msw
Sağladığınız zamanlayıcı ara katman bağlantısı artık çalışmıyor. –