Python için bir PDF açmamı ve belirli kelimeler için metni aramamı sağlayan bir paket/kitaplık var mı?metin-madeni PDF dosyaları?
5
A
cevap
11
bunun üzerine pdf metin ve işi ayıklamak için extractText() yöntemi kullanabilirsiniz PyPdf2 kullanma.
Güncelleme: Değiştirilen metin kafaları için @Aditya Kumar için, PyPdf2 sayesinde yukarı başvurmak için.
4
Sana tek adımda bunu yapabilirsiniz sanmıyorum, ama kesinlikle pdfminer bir pdf dışına metin alabilirsiniz. Ardından, bu kurtarılan verilere herhangi bir metin araması uygulayabilirsiniz.
@cartman: PyPdf'in satırlar arasında boşluk bırakmadığı konusunda nasıl çalışacağınız hakkında bir fikriniz var mı? Örneğin, pdf'de bir satır 'merhaba' demişse ve bir sonraki satır 'dünya' demişse, çıkardığım metin 'merhaba dünya' yerine 'merhaba dünyası' yerine, herhangi bir metin madenciliğini ... – sepiroth
doğru hatırlayın, PyPdf bazı PDF'lerde bazı yeni satırları '\ x00' olarak okur. PyPdf için – PhilS
+1: Bu bir _very_ kullanışlı modül, 2.6 için biraz modası geçmiş olsa bile (kaynaklar zaten kullanılabilir, ancak birkaç uyarlaması var). – RedGlyph