içinde tavsiye edersiniz ne HTML ayrıştırma kitaplıkları? Artıları ve eksileri var mı?ben</p> <p>Ne HTML ayrıştırıcıları tavsiye edersin vb bazı özellikler/etiketlerinin değerleri bulmak için bazı HTML ayrıştırmak isteyen Java
cevap
Son derece basit olan HTML Parser'u denedim.
Bir projede HTML ayrıştırıcısını kullandım ve tam olarak beklendiği gibi çalışıyordu –
Ancak çok fazla öğretici yok ... – Lily
Benim sözde "metin düğümünde sürünen bir sürü javascript parçacığı (ve öğe öznitelikleri) farkettim "ekstraksiyonlar. Hatalı HTML'nin tüm ayrıştırma işleminin başarısız olmasına neden olduğu bazı durumlar da vardır. Bu yüzden kendi projemdeki htmlparser kütüphanesini biraz daha iyi bir şeyle değiştirmek istiyorum. – benjismith
HTML'nin tam ayrıştırmasını yapmanız mı gerekiyor? İçeriğindeki belirli değerleri (belirli bir etiket/param) arıyorsanız, basit bir normal ifade yeterli olabilir ve daha hızlı olabilir.
XPath, HTML ayrıştırma yoludur, düzenli biçimlendirilmiş HTML'de olduğu gibi normal ifadeler başarısız olduğunda da yardımcı olur. –