2013-02-27 30 views
5

ben html sayfası indirmek için aşağıdaki python kodu kullandı: bir sayfa gibi this one içinurllib2 piton (Transfer-Encoding: chunked)

response = urllib2.urlopen(current_URL) 
msg = response.read() 
print msg 

, bu hata olmadan url açar ama sadece bir parçası daha sonra baskılar html sayfası!

Aşağıdaki satırlarda html sayfasının http başlıklarını bulabilirsiniz. Bence sorun "Transfer-Kodlama: parçalanmış".

Görünüşe göre urllib2 yalnızca ilk yığınları döndürür! Kalan parçaları okumakta zorluk çekiyorum. Kalan parçaları nasıl okuyabilirim?

Server: nginx/1.0.5 
Date: Wed, 27 Feb 2013 14:41:28 GMT 
Content-Type: text/html;charset=UTF-8 
Transfer-Encoding: chunked 
Connection: close 
Set-Cookie: route=c65b16937621878dd49065d7d58047b2; Path=/ 
Set-Cookie: JSESSIONID=EE18E813EE464664EA64086D5AE9A290.tpdjo13v_3; Path=/ 
Pragma: No-cache 
Cache-Control: no-cache,no-store,max-age=0 
Expires: Thu, 01 Jan 1970 00:00:00 GMT 
Vary: Accept-Encoding 
Content-Language: fr 

cevap

0

Ben aksi takdirde yapar, ben Accept-Language eğer başlık TCP bağlantısı düşmemesine sunucudan daha belirtildiğinden öğrendim.

curl -H "Accept-Language:uk,en-US;q=0.8,en;q=0.6,ru;q=0.4" -v 'http://www.legifrance.gouv.fr/affichJuriJudi.do?oldAction=rechJuriJudi&idTexte=JURITEXT000024053954&fastReqId=660326373&fastPos=1'