Birden çok dodoop işi olacak yeni bir Hadoop projesinde (ve dolayısıyla birden çok jar dosyası) başlıyorum. Kaynak kontrolü için mercurial kullanarak, depo yapısını organize etmenin en iyi yolu neyin olacağını merak ediyordum? Her iş ayrı bir repoda mı yaşamalı yoksa onları aynı tutmak için daha verimli olur mu, ancak klasörlere ayrılır mı?Hadoop projesi için depo organizasyonu
6
A
cevap
1
Hadoop işlerini (bir çıktının diğerinin girdisi olduğu) pipeline ediyorsanız, birçok veriyi üretme eğilimindeyim çünkü çoğunu aynı depoda tutmanın daha iyi olduğunu buldum. çeşitli MR işlerinde kullanmak.
Genelde, hiçbir bağımlılık olmadığı için akış işlerini daha geleneksel işlerimden ayrı bir repoda tutuyorum.
DistributedCache veya akış işlerini kullanmayı planlıyor musunuz? Dağıttığınız dosyalar için ayrı bir dizin isteyebilirsiniz. Hadoop'un başına bir JAR'a gerçekten ihtiyacın var mı? Bulmadım.
Hadoop ile ne yapmayı planladığınız hakkında daha fazla bilgi verirseniz, başka ne önerebileceğimi görebilirim.
Teşekkürler Eric. Henüz iş akışı yapmamaya karar vermeyeceğim (gelecekte oraya varabilir, ama henüz değil). Proje çok geniştir ve büyüyor, bu yüzden daha fazla proje büyümesini barındırabilecek iyi bir temeli nasıl düzenleyeceğimi merak ediyorum. –