Python Scrape urllib2 HTTP Hataları

Bir siteyi taramaya çalışıyorum ancak kodum yalnızca sitenin açık olması ve daha sonra yeniden açılmasını sağlamak için çalışıyor. Birden şey denedik ve şu iki hatalarına gelmesini sağlayacak adres: ilk: ValueError: "httpError: HTTP Hatası 416: İstenen Range karşılanabilir"Python Scrape urllib2 HTTP Hataları

urlslist = open("list_urls.txt").read() 
urlslist = urlslist.split("\n") 
for urlslist in urlslist: 

htmltext = urllib2.urlopen("www..."+ urlslist) 
data = json.load(htmltext)

Ayrıca bazı başlıkları ve böyle ama kullanarak denedi olsun 'ValueError: Hiçbir JSON nesnesi kodu çözülemedi':

req = urllib2.Request('https://www....) 
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36') 

htmltext = urllib2.urlopen(req) 
data = json.load(htmltext)

Stumped, herhangi bir yardım mı?

kaynak

2016-03-29 sky44

neden "www ..."? Bu senin kodun mu? –

Lütfen http://stackoverflow.com/help/mcve adresini okuyun. – boardrider

url: http://www.stubhub.com/beyonce-tickets-beyonc--san-diego-qualcomm-stadium-5-12-2016/event/9519801/ – sky44

-1

Bir URL istediğinde, "http (s): //" kısmını da eklemeniz gerekir. (Örn yerine https://www.google.com, metin dosyası google.com vardır), bu kodu var metin dosyası sadece url'nin "name.com" bölümünü içerdiğini varsayarsak gerekir:

htmltext = urllib2.urlopen("https://www." + urlslist)

ise url stubhub.com (yorumunuzda belirttiğiniz gibi) bir, "s" ye ihtiyacınız yok. Bunun yerine bu olacaktır:

htmltext = urllib2.urlopen("http://www." + urlslist)

json hata sadece yüklemek için hiçbir json dosyası olmadığını gerçeğine bağlı olabilir. Geliştirici paneline bir göz atmanız ve json biçimindeki dosyaların getirildiğinden emin olmanız gerekir.

kaynak

2016-04-12 00:28:41 ArashkG

Python Scrape urllib2 HTTP Hataları

cevap

İlgili konular