2013-01-12 9 views
7

Ben Hadoop oldukça yeni ve şu andaBirden çok Map-Reduce işinin zincirlenmesine yardımcı olmak için gelişmiş bir iş denetimi çerçevesi uygulayarak ortalama nedir?

ile ilgili bir proje tahsis edilmiş "zincir birden Harita-azaltın işler/araştırmak org.apache.hadoop.mapred mevcut geliştirmek yani yardımcı olmak için gelişmiş iş kontrol çerçevesi Uygulamak .jobcontrol paketi. "

Bu proje, http://wiki.apache.org/hadoop/ProjectSuggestions#research_projects

Benim karışıklık üzerine Rastgele Fikirler altında Proje Öneri sayfasında listelenen Ben Oozie avans versiyonunu inşa etmek var mı (Sanırım zincir birden işlere bir iş denetim çerçevesidir) olduğu ya da buna benzer bir şey ya da bu tamamen farklı bir şey anlamına geliyor.

Neyi eksik?

+0

Emin değilim. Ama sonra yinelemeli harita küçültme, stratosfer ve Mesos'a bir göz atın. Bu, bunların bir kombinasyonu gibi görünüyor. – debarshi

cevap

5

Size atıfta bulunduğunuz proje this Jira ticket ile ilgili olabilir.

Şu anda JobControl class oldukça çıplak ve kullanıcının hayatını kolaylaştıracak bir dizi işlevsellik eksik. Şu anda sadece JobControl.run diyoruz ve bu kadar, ama bir şey benim işim değişiklikleri zaman haberdar olsun eğer uygulamada ilginç olabilir: iş durumunu değiştirdiğinde bildirim almak için

  • Yetenek: Örneğin.
  • Hatalı işler yeniden gönderilirse:/veya başarısız olursa bir işi yeniden göndermek için bir tesis uygulayabilirsiniz; örneğin, ControlledJob sınıfında maksimum yeniden deneme sayısı parametresi olabilir ve bu noktaya kadar bir bildirim göndermeden önce bu noktaya kadar yeniden deneme yapabilirsiniz. başarısız oldu.
  • Haftalık, günlük, saatlik, düzenli olarak bir çok iş çalıştırılır ... Bu genellikle crontab yoluyla yapılır, bu nedenle Hadoop'a gömülü bu özelliğe sahip olmak ilginç olabilir, örneğin kullanıcılar bir bir süre belirterek yinelenen iş ve JobControl bu düzenli aralıklarla çalıştırırdı.
  • Belki de iş akışınızı ve her işin bağımlılıklarını görselleştirmek için bir kullanıcı arabiriminiz var, hangi adımlar daha önce tamamlandı ve ne yapılmadı.
  • Yalnızca Map/Reduce işlerini başlatmanın yanı sıra, örneğin Hive, Pig'ı da kullanma kabiliyetine sahip olmak ilginç olabilir, böylece kullanıcılar her türlü işi gönderebilecekleri ve sorunsuz bir şekilde monitore edebilecekleri genel bir arabirim sağlayabilirsiniz.

Sonunda tamamen yeni bir çerçeve yeniden yapılandırmanız gerektiğini düşünmüyorum, JobControl sınıfı zaten iyi bir başlangıç ​​noktası sağlıyor. Kullanıcının bakış açısıyla düşünmeye çalışın, işleri daha kolay ve daha kısa sürede yapmak ve yönetmek için ne yapabilirsiniz? Buradaki ve biletteki fikirler sadece bir örnektir, kendi fikirlerinizle gelmekte özgürsünüz.

Oozie ile ilgili olarak, bir iş akışını denetlemek için daha yüksek bir soyutlama sağlar, ancak kurulum için daha karmaşıktır ve daha karmaşık işler için ayrılmalıdır. Bazı insanların Oozie'yi kullanmakta tereddüt ettiklerini biliyorum çünkü uygulamalarınıza ek yük getiriyor. Büyük fark aynı zamanda Oozie bir sunucudur, JobControl ise sadece ek makine olan istemci makinede çalışır.Yukarıda bahsedilen özelliklerin bir kısmı Oozie'da 1 şekilde veya diğer şekilde mevcut iken, Oozie gibi ekstra çalışmaya gerek kalmadan istemci makinede basit ve kesintisiz çalışabilme yeteneği benim düşünceme göre projenizin anahtarıdır.

+0

Cevabınız için teşekkür ederiz, ben size katılıyorum ama tek şüphem var - Oozie'den nasıl farklıdır. Bahsettiğin bütün nokta Oozie çerçevesinde zaten mevcut mu? – Ananda

+0

@bril Daha fazla ayrıntı ekledim, kısaca evet, bazı özellikler Oozie'de mevcut, ama Oozie çok daha karmaşık ve bir sunucu olarak çalışan farklı bir hayvandır, örneğin Oozie kullanmıyorum çünkü fazla yük ekler ve böylece bu şeyleri müşteri makinemde yönetmeme yardımcı olacak yardımcı programlara sahibim. Bu, benim düşüncemde zaten var olan sınıfları genişleterek projenizin bir parçası olarak yapmayı denemeniz gereken şey. –

+0

Bu durumda Hamake http://code.google.com/p/hamake/wiki/HamakeComparisonWithOtherWorkflowEngines, istemci tarafında yardımcı program olarak çalışan ve veri akışı modelini izleyen ve neredeyse gereken tüm işleri yapan daha iyi bir alternatiftir. Yine, işime nasıl devam edeceğime dair bir kafa karışıklığı yaratıyor. – Ananda