Tüm dosyaları tek bir dizinin altında nasıl kaldırabilirim? Mrjob

python
hadoop
mrjob

2012-12-07 20 views 5 likes

Bir dosya kümesini işlemek ve bazı istatistikler almak için mrjob kullanıyorum. BenTüm dosyaları tek bir dizinin altında nasıl kaldırabilirim? Mrjob

python count.py <some_input_file> output

gibi tek dosya üzerinde mapreduce işi çalıştırabilirsiniz biliyorum Ama nasıl dosyaların bir dizin komut dosyasına besleyebilir? Dosya dizini yapısı bu folder/subfolders/files gibi, herhangi bir öneri var mı?

kaynak

2012-12-07 Chunliang Lyu

cevap

Son olarak, giriş yolu olarak bir dizin belirleyebileceğimi ve Hadoop'un bu dizindeki tüm dosyaları işleyeceğini buldum.

Ayrıca benim durumumda, giriş dosyalarını içeren alt dizinlerim var. Hadoop, dizini yinelemeli olarak çaprazlamayacak ve varsayılan olarak hatayı artıracaktır. Yaygın bir hile,

python count.py hdfs://master-host/directory/*/*.txt > result

gibi joker karakterleri kullanmaktır.

kaynak

2012-12-07 12:48:20

Tüm dosyaları tek bir dizinin altında nasıl kaldırabilirim? Mrjob

cevap

İlgili konular