2015-06-26 32 views
11

Tika kullanarak büyük pdf ve kelime belgeleri ayrışıyorum ama hata mesajı alıyorum.TIka kullanarak büyük dosyalar nasıl okunur?

Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit. (Text up to the limit is however available). 

Sınırı nasıl artırabilirim?

+0

Apache Tika'yı nasıl aradığınıza bağlı. Apache Tika'yı nasıl arıyorsun? – Gagravarr

cevap

15

açıklandığı gibi o zaman yapmanız gereken, yazma limitini devre dışı bırakmak için create your BodyContentHandler with a write limit of -1 olduğunu, temelde Tika example for extracting to plain text takip ediyorsanız varsayarsak javadocs

sonra (inspired by the example) gibi görünecektir Kodunuz:

BodyContentHandler handler = new BodyContentHandler(-1); 

InputStream stream = ContentHandlerExample.class.getResourceAsStream("test.doc"); 
AutoDetectParser parser = new AutoDetectParser(); 
Metadata metadata = new Metadata(); 
try { 
    parser.parse(stream, handler, metadata); 
    return handler.toString(); 
} finally { 
    stream.close(); 
}