Tüm resimleri bir HTML sayfasından silmek için Jsoup kullanıyorum. Sayfayı bir HTTP yanıtı aracılığıyla alıyorum - bu da içerik karakterini içerir.Jsoup özel karakterleri kaldırır
Sorun, Jsoup'un bazı özel karakterleri çıkarmamasıdır. Örneğin
, giriş için:
<html><head></head><body><p>isn’t</p></body></html>
String check = "<html><head></head><body><p>isn’t</p></body></html>";
Document doc = Jsoup.parse(check);
System.out.println(doc.outerHtml());
çalıştırdıktan sonra alıyorum:
<html><head></head><body><p>isn’t</p></body></html><p></p>
ben dışında başka bir şekilde html değişen kaçınmak istiyorum görüntüleri kaldırmak için. komutunu kullanarak
:doc.outputSettings().prettyPrint(false).charset("ASCII").escapeMode(EscapeMode.extended);
ben doğru çıktı almak yapmak ama bu karakter kümesi iyi olmayacaktır durumlar vardır eminim. Sadece HTTP üstbilgisinde belirtilen karakter kümesini kullanmak istiyorum ve korkarım bu, belgemi tahmin edemeyeceğim şekillerde değiştirecektir. Görüntüleri yanlışlıkla değiştirmeksizin görüntüleri çıkarmak için başka bir temizleyici yöntemi var mı?
Teşekkür ederiz!
Teşekkürler, Jsoup'un API'sinde bir çözüm bulunmasına rağmen, bunu şimdilik kullanacağım. – dlv
@dlv Lütfen güncellememi görün. – Stephan
Teşekkür ederiz! Bu gerçekten bilgilendirici. – dlv