2017-07-03 70 views
5

Apache Spark kullanarak pdf/ses/video dosyalarını (yapılandırılmamış veri) okumak mümkün mü? Örneğin, binlerce pdf faturam var ve bunlardan veri okumak ve bazı analizler yapmak istiyorum. Yapılandırılmamış verileri işlemek için hangi adımları uygulamalıyım?Apache Spark kullanarak pdf/ses/video dosyalarını (yapılandırılmamış veri) okumak mümkün mü?

+1

"Okuma pdf kıvılcımı" aranıyor http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using- StackOverflow için konu dışıysa 50'den az satırlık kod/ –

+1

Off-site kaynak önerisi. Bazı iş akışı ile cevap verdim, kendiniz uygulamanız gereken ayrıntılar –

cevap

6

Evet, öyle. Dosyaları ikili biçimde yüklemek için sparkContext.binaryFiles'u kullanın ve başka bir formata eşlemek için map kullanın, örneğin Apache Tika veya Apache POI ile ikili dosyaları ayrıştırın.

yalancı kod: cevabım önce belirtildiği gibi

önemli olan
val rawFile = sparkContext.binaryFiles(... 
val ready = rawFile.map (here parsing with other framework 

, ayrıştırma diğer çerçeveyle yapılmalıdır. Harita, InputStream'i bir argüman olarak alacaktır