Ben TagSoup ve jTidy kütüphaneleri için belgelere (mümkün ise resmi belgelere) bakıyorum. Bu kitaplıkları, html (html, xhtml veya html5) etiketleri arasında karışık farklı ad alanlarına sahip xml etik
Temel URL'yi java kullanarak almaya çalışıyorum. Başlığı almak için kodumda jtidy ayrıştırıcı kullandım. Başlığı jtidy kullanarak düzgün şekilde alıyorum, ancak verilen URL'den temel URL almıyorum. İl