Apache Spark kullanarak pdf/ses/video dosyalarını (yapılandırılmamış veri) okumak mümkün mü? Örneğin, binlerce pdf faturam var ve bunlardan veri okumak ve bazı analizler yapmak istiyorum. Yapılandırılmamış verileri işlemek için hangi adımları uygulamalıyım?Apache Spark kullanarak pdf/ses/video dosyalarını (yapılandırılmamış veri) okumak mümkün mü?
5
A
cevap
6
Evet, öyle. Dosyaları ikili biçimde yüklemek için sparkContext.binaryFiles
'u kullanın ve başka bir formata eşlemek için map
kullanın, örneğin Apache Tika veya Apache POI ile ikili dosyaları ayrıştırın.
yalancı kod: cevabım önce belirtildiği gibi
önemli olanval rawFile = sparkContext.binaryFiles(...
val ready = rawFile.map (here parsing with other framework
, ayrıştırma diğer çerçeveyle yapılmalıdır. Harita, InputStream'i bir argüman olarak alacaktır
"Okuma pdf kıvılcımı" aranıyor http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using- StackOverflow için konu dışıysa 50'den az satırlık kod/ –
Off-site kaynak önerisi. Bazı iş akışı ile cevap verdim, kendiniz uygulamanız gereken ayrıntılar –