Apache Solr'da arapça PDF'leri araştırmaya çalışıyorum. Sorun, Tika'nın PDF'yi (Sağdan sola) yerine ters sırada (Soldan sağa) endekslediğidir. Burada bu sorun hakkındaArapça PDF için Solr
buldum referanslar: Ancak
- Solr for Arabic
- How to parse arabic pdf with Tika
- http://www.linnovate.net/blog/apache-solr-search-hebrew-and-probably-arabic-documents-drupal-pdf-problem-solution
, ben PDFBOX veya en son sürümünü içerecek şekilde nasıl bilmiyorum ICU4J benim apache solrumda. Benim Apache Solr Contrib/extraction/lib
klasöründe pdfbox-1.6.0.jar
ve icu4j-4.8.1.1.jar
bulunur. Söz konusu dosyaların silinmesi ve bunların proje sayfalarından en son kütüphanelerle değiştirilmesi TİKA'nın bunları kullanmaya zorlamak için tatmin edici olacak mı?
Lütfen daha önce Java servlet ile ilgili daha önceki bir deneyime sahip olmadığımı açıklayınız. Teşekkürler!