2016-07-06 68 views
7

Python3 ve newspaper kitaplıklarını kullanıyorum. Bu kütüphanenin bir haber web sitesinin bir soyutlaması olan bir Source nesnesi oluşturabileceği söylenir. Ama ya belirli bir kategorinin sadece soyutlamasına ihtiyacım varsa.Gazete kütüphanesini kullanarak bir web sitesinin yalnızca belirli bir kategorisini nasıl ayrıştırabilirim?

Örneğin, this url kullandığımda, 'technology' kategorisindeki tüm makaleleri almak istiyorum. Bunun yerine, 'politics''dan makaleler aldım.

Bence, Source nesnesini oluştururken, gazete, benim durumumda yalnızca www.kyivpost.com olan etki alanı adını kullanır.

http://www.kyivpost.com/technology/ gibi URL'ler ile çalışmasını sağlamanın bir yolu var mı?

+0

Gazete modülünü kullanarak kategorileri almak için bir çıkış yolu buldunuz mu? –

cevap

0

newspaper Uygun olduğunda bir sitenin rss beslemesini kullanır; KyivPost'un yalnızca bir rss yayını vardır ve makaleleri ağırlıklı olarak siyaset üzerinde yayınlar, bu yüzden sonuç kümeniz çoğunlukla politikadır. Makale URL'lerini özellikle teknoloji sayfasından çekmek ve doğrudan newspaper adresine göndermek için BeautifulSoup kullanarak daha fazla şansınız olabilir.