2015-09-06 11 views
6

Bir süredir bununla uğraşıyorum. HTML'ye dize yazmaya çalışıyorum ama onları temizledikten sonra formatla ilgili sorunlarım var. İşte bir örnek:Python HTML Kodlama xc2 xa0

paragraphs = ['Grocery giant and household name Woolworths is battered and bruised. ', 
'But behind the problems are still the makings of a formidable company'] 

x = str(" ") 
for item in paragraphs: 
    x = x + str(item) 
x 

Çıktı:

"Grocery giant and household name\xc2\xa0Woolworths is battered and\xc2\xa0bruised. 
But behind the problems are still the makings of a formidable\xc2\xa0company" 

İstenilen çıktı: Bunu olur ve ben nasıl çözebileceğinizi açıklamak mümkün olduğunu umuyorum

"Grocery giant and household name Woolworths is battered and bruised. 
But behind the problems are still the makings of a formidable company" 

. Şimdiden teşekkürler! xa0 \ XC2 \

+2

Kaynak dizginizde olağandışı Unicode boş alanı olup olmadığını kontrol ettiniz mi? –

cevap

14

0xC2 0xA0

Bölünemez boşluk

UTF-8 kodlamaları görünmez kontrol karakteri bir tür sözde demektir. Bu konu hakkında daha fazla bilgi için şu bilgileri kontrol edin: https://en.wikipedia.org/wiki/Non-breaking_space

Sorulara yapıştırdığınız şeyi kopyaladım ve beklenen çıktıyı aldım.

+5

Teşekkürler. Bu onu düzeltir. Ben inşa: x.replace ("\ xc2 \ xa0", "") –