mu Hadoop akışı ORC ve parke gibi yeni sütunlu depolama biçimlerini destekleyen ya da bu tür formatlarını okuyabilir Hadoop'un üstünde var çerçeveler vardır?Akış çerçeveler, parke dosya biçimleri
cevap
ORC Dosyası'nı okumak için HCatalog'u kullanabilirsiniz. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat
ORC, Text, Sequence, RC dosyalarını okumak için bir soyutlama sağlar. Orada parke desteğinin olup olmadığından emin değilim. Bu makul gelmiyor eğer Yine de, ORC Files (ORCInputFormat, ORCOutputFormat) okumak için kovan kod tabanı ORC rekor okuyucularını kullanabilirsiniz.
Aksine eski haber ama bir süre önce bu ile mücadele etti. Ben sonuç olarak, ben düz metin ve json için/from avro ve parke dosyalarını dönüştürmek giriş/çıkış formatlarını bir dizi yaptık, bu yüzden herhangi bir çözüm buldum vermedi. http://github.com/whale2/iow-hadoop-streaming adresinde bulunabilir. ORC desteği yok, ancak Avro ve Parke destekleniyor. Bu yardımcı olur umarım.