Proxy ile Python'da selenium webdriver kullanarak web kazıma yapıyorum.Selenium Webdriver/Beautifulsoup + Web Kazıma + Hata 416
Bu kazıma işlemini kullanarak, tek sitenin 10 k'dan fazla sayfasına göz atmak istiyorum.
Bu proxy kullanıyor Sadece bir seferlik istek gönderebiliyorum. Aynı linkte veya bu sitenin başka bir linkinde başka bir istek gönderdiğimde, 1-2 saat boyunca 416 hatası (güvenlik duvarı kullanan bir blok IP türü) alıyorum.
Not: Tüm normal sitelerin bu kodla kazıma işlemini yapabildiğim, ancak bu sitenin güvenli bir şekilde kazıma yapmamı engelliyor.
İşte kod.
profile = webdriver.FirefoxProfile()
profile.set_preference("network.proxy.type", 1)
profile.set_preference(
"network.proxy.http", "74.73.148.42")
profile.set_preference("network.proxy.http_port", 3128)
profile.update_preferences()
browser = webdriver.Firefox(firefox_profile=profile)
browser.get('http://www.example.com/')
time.sleep(5)
element = browser.find_elements_by_css_selector(
'.well-sm:not(.mbn) .row .col-md-4 ul .fs-small a')
for ele in element:
print ele.get_attribute('href')
browser.quit()
Herhangi bir çözüm ??