2009-11-04 11 views

cevap

11

bunun üzerine pdf metin ve işi ayıklamak için extractText() yöntemi kullanabilirsiniz PyPdf2 kullanma.

Güncelleme: Değiştirilen metin kafaları için @Aditya Kumar için, PyPdf2 sayesinde yukarı başvurmak için.

+0

@cartman: PyPdf'in satırlar arasında boşluk bırakmadığı konusunda nasıl çalışacağınız hakkında bir fikriniz var mı? Örneğin, pdf'de bir satır 'merhaba' demişse ve bir sonraki satır 'dünya' demişse, çıkardığım metin 'merhaba dünya' yerine 'merhaba dünyası' yerine, herhangi bir metin madenciliğini ... – sepiroth

+0

doğru hatırlayın, PyPdf bazı PDF'lerde bazı yeni satırları '\ x00' olarak okur. PyPdf için – PhilS

+0

+1: Bu bir _very_ kullanışlı modül, 2.6 için biraz modası geçmiş olsa bile (kaynaklar zaten kullanılabilir, ancak birkaç uyarlaması var). – RedGlyph

4

Sana tek adımda bunu yapabilirsiniz sanmıyorum, ama kesinlikle pdfminer bir pdf dışına metin alabilirsiniz. Ardından, bu kurtarılan verilere herhangi bir metin araması uygulayabilirsiniz.