2012-12-07 18 views
5

Bir dosya kümesini işlemek ve bazı istatistikler almak için mrjob kullanıyorum. BenTüm dosyaları tek bir dizinin altında nasıl kaldırabilirim? Mrjob

python count.py <some_input_file> output 

gibi tek dosya üzerinde mapreduce işi çalıştırabilirsiniz biliyorum Ama nasıl dosyaların bir dizin komut dosyasına besleyebilir? Dosya dizini yapısı bu folder/subfolders/files gibi, herhangi bir öneri var mı?

cevap

6

Son olarak, giriş yolu olarak bir dizin belirleyebileceğimi ve Hadoop'un bu dizindeki tüm dosyaları işleyeceğini buldum.

Ayrıca benim durumumda, giriş dosyalarını içeren alt dizinlerim var. Hadoop, dizini yinelemeli olarak çaprazlamayacak ve varsayılan olarak hatayı artıracaktır. Yaygın bir hile,

python count.py hdfs://master-host/directory/*/*.txt > result 
gibi joker karakterleri kullanmaktır.