pyPdf, PDF dosyalarını birleştirmek ve birleştirmek için harika bir kütüphanedir. Pdf belgelerini 1 sayfa dokümana bölmek için kullanıyorum. pyPdf, saf python'dur ve çıkarılan sayfayı kaydederken PdfFileWriter nesnesinin _sweepIndirectReferences() yönteminde oldukça fazla zaman harcar. Daha iyi performansa sahip bir şeye ihtiyacım var. Çok iş parçacığı kullanmayı denedim, ancak çoğu zaman python kodunda harcadığı için GIL'den dolayı hız kazanmıyordu (aslında daha yavaş koşuyordu).Hızlı PDF ayırıcı kitaplığı
Aynı işlevsellik sağlayan c dilinde yazılmış bir kitaplık var mı? ya da performansın nasıl geliştirileceği konusunda iyi bir fikriniz var (ayrıştırmak istediğim her pdf dosyası için yeni bir işlem oluşturmanın dışında)
Önceden teşekkür ederiz.
Takibi. Ben harcandı ne kadar zaman takip etmek için pyPdf PDFWriter sınıfını modifiye
- http://multivalent.sourceforge.net/Tools/pdf/Split.html
- http://www.linuxsolutions.fr/how-to-extract-pages-from-a-pdf/
: Komut satırı çözümleri bir çift Linkler, o pyPdf daha bazen daha hızlı kanıtlayabilirim _sweepIndirectReferences() yönteminde. Çok uzun olsaydı (şu anda 3 saniyenin büyülü değerini kullanıyorum) o zaman python'dan bir çağrı yaparak ghostscript'i kullanmaya geri dönüyorum.
Tüm cevaplarınız için teşekkür ederiz. (codelogic'in xpdf başvurusu bana farklı bir yaklaşım için bakmamı sağlayan)
Pdf'yi sökmem gerekiyor. Eğer mbtPdfAsm düzgün anlarsam pdfs toplar. – Nathan
pdfs'nin montajı ve sökülmesi için kullanılabilir. – codelogic