Bir belgede hangi sayfaların bir python sözlüğünde/listede saklandığım belirli bir sözcükte bulunduğunu bulmak için zarif bir çözüm arıyorum.Belgedeki sayfa (larda) bulunan kelime bulma
İlk olarak .docx biçimini bir giriş olarak kabul ettim ve bir arama işlevi olan PythonDocx'a baktım, ancak docx/xml biçiminde gerçekten bir sayfa niteliği bulunmuyor. Belgeyi ayrıştırırsam xml ağacında <w:br w:type="page"/>
örneğini arayabilirdim ancak maalesef bunlar zorunlu olmayan sayfa sonları göstermiyor.
Dosyaları önce PDF'ye dönüştürmeyi ve belge sayfalarını ayrıştırmak için PDFminer gibi bir şey kullandığımı bile düşündüm.
docx oluşturan xml dosyalarını ayrıştırma bir dize için bir .docx belgesini aramak ve onu
[('foo' ,[1, 4, 7 ]), ('bar', [2]), ('baz', [2, 5, 8, 9)]
Bence aradığın şey bu: [link] (http://stackoverflow.com/questions/12571905/finding-on-which-page-a-search-string-is-located-in -a-pdf-document-using-python) – Roxy
@birgit Hala bu konuyla ilgili bir çözüm mü arıyorsunuz? – mabe02
@ mabe02 Henüz bir çalışma çözümü bulamadım:/ama ilgilenecek – birgit