dosya görüntüleyicisi varHDFS?HDFS dosya görüntüleyicisi
Senaryo: dosya sayısı bir eşiğe ulaşan bir kez Spark İşi başlatmak istiyor dosyaları HDF'ler continuously.I açılış edilmektedir (bu dosyaların dosya sayısı veya boyutu olabilir).
Bunu başarmak için HDFS'ye dosya izleyicisi uygulamak mümkün mü? Evet ise, o zaman herkes bunu yapmanın yolunu önerebilir mi? Farklı seçenekler nelerdir? Hayvan bekçisi veya Oozie bunu yapabilir mi?
Herhangi bir yardım için teşekkür ederiz. Teşekkürler.
Spark Streaming'in benzer bir işlevi vardır: [FileInputDStream] içinde (https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/FileInputDStream .scala # 172-172) –
Unix komutunu şu şekilde kullanabileceğinizi düşündüğüm basit şey: hadoop fs -ls | wc -l – user3484461
@YijieShen Daha fazla detaylandırır mısınız, lütfen? –