Web siteleri kazımak için bazı Python kodları yazıyorum ve neyle sonuçlanacağım, her biri yaklaşık 50'den fazla özel kazıyıcı koleksiyonudur. satırlar uzun ve özel bir web sitesinden özel bilgileri ayıklamak.Birbirinden büyük farklılıklar gösteren, ancak benzer şekilde işlenen işlevler için desen ve tasarım
Programın ilk yinelemesi, bir web sitesini bir argüman olarak alan devasa bir dosyadır ve bu web sitesini tanıyıp tanıtan özel bir kod içeriyorsa (web sitesini tanıyıp tanımadığını görmek için devasa bir durum bildirimi kullanarak) .
Açıkçası, bu harika bir tasarım değil, bu yüzden yapmak istediğim özel kazıma işlevlerini kendi dosyalarına/sınıflarına çekmek ve adlarına göre adlandırmak için kullanabileceğim küçük bir betiğe sahip olmak. Örneğin:
scrape.py --site google
Ve benzer bir dosya yapısına sahip istiyorum: Henüz ben uzmanlaşamadım
scrape.py
sites/
google.py
yahoo.py
...
bing.py
nesne yönelimi, ama bu onun için seslendiğini olduğunu fark, ve aradığım şey muhtemelen ortak bir OO modeli.
Bu kodun alınmasıyla ilgili herhangi bir yardım doğru şekilde yeniden oluşturuldu mu?
PS - Scrapy'ye baktım ve çeşitli nedenlerden dolayı ihtiyacım olan şey bu değil.
PPS - Aslında arama web sitelerini kazıyorum, ABD mahkeme web sitelerini kazıyorum.
Nihayetinde, [Juriscraper] (https://bitbucket.org/mlissner/juriscraper/) kütüphanesini oluşturmak için buradaki cevapların ikisini de kullandım, ancak daha fazla ödünç aldım. Gerçekten yararlı şeyler, teşekkürler! – mlissner