2011-10-23 8 views
6

Uygulamayı düzenlemeden MapReduce İşinin ara (Map Phase) çıktısını günlüğe kaydetmek için çıkış yolu var mı? (Uygulama benim değil, küme ve istediğim şekilde Hadoop Kümesini kurabilirim)Hadoop MapReduce ara çıkışı

+0

İşi yeniden yapılandırabilir misiniz? –

cevap

8

keep.task.files.pattern parametresi ara dosyaları tutmak için kullanılabilir. Ara tamamlandıktan sonra ara dosyalar elle temizlenmelidir. Bu, bir harita/azaltma görev özelliğidir, yapılandırma dosyasında ve yeniden paketlenmiş kavanoz dosyasında ayarlanması gerekir.

+0

lütfen detaylandırır mısınız? Bu parametreyi belirledim ve çıktı yönergelerinde ve haritalanmış yerel önbelleklerde her yerde arama yaptım, ancak hiçbir yerde harita aşaması çıkışı yok ... – ihadanny

+0

... $ {mapred.output.dir }/_ geçici, ama tüm ben orada bulabilirsiniz "_attempt_local_0003_r_000000" klasörü, onun "m" muadili – ihadanny

+0

asla "keep.task.files.pattern" olarak ayarladık. * 00000. * '' de -site.xml' ve 'core-site.xml' içinde' hadoop.tmp.dir' parametresi '$ HADOOP_HOME \ tmp' olarak ayarlandı. İşi çalıştırdıktan sonra, file.out ve file.out.index, $ HADOOP_HOME/tmp/mapred/local/taskTracker/praveensripati/jobcache/job_201111031937_0001/attempt_201111031937_0001_m_000001_0/output' klasöründedir. Bu dosyalar SequenceFile biçimindedir. [Burada] (http://goo.gl/7fJzT) dizi dosyalarını okumak için örnek koddur. Hangi deseni kullandın? –