Bunu yapmak için temel olarak 4 şeyi aramalısınız: CPU, RAM, Disk ve Ağ. Kurulumunuz bu metriklerin eşiğini geçiyorsa, sınırları zorladığınızı anlayabilirsiniz. Örneğin, "mapred.reduce.parallel.copies" değerini mevcut çekirdek sayısından çok daha yüksek bir değere ayarladıysanız, bu özelliğe dayalı olarak bekleme durumunda çok fazla iş parçacığıyla sonuçlanırsınız. Harita çıktısını almak için oluşturulacak. Bu ağa ek olarak bunalmış olabilir. Ya da, karıştırılmak üzere çok fazla ara çıktı varsa, RAM tabanlı karmadan daha yavaş olacak şekilde, böyle bir durumda disk tabanlı karışıklığa ihtiyaç duyacağınız için işiniz yavaşlayacaktır. RAM'inize göre "mapred.job.shuffle.input.buffer.percent" için bilge bir değer seçin (normalde iyi olan Reducer yığınının% 70'i varsayılan değerdir). Yani, bunlar aşırı-paralel olup olmadığınızı size söyleyecek bazı şeyler. Göz önünde bulundurmanız gereken başka birçok şey var. "Hadoop Definitve Guide" ın 6. Bölümünde ilerlemenizi tavsiye ederim.
Eğer verimli işlerinizi yapmak için, sürebilir önlemlerin bazıları
, veri aktarımını sınırlamak için bir birleştirici kullanıyor gibi vb
HTH
PS ara sıkıştırmayı etkinleştirmek gibidir: cevabı sadece "mapred.reduce.parallel.copies" için spesifik değildir. Genel olarak işinizi ayarlamanızı anlatır. Aslında, sadece bu mülkün ayarlanması size çok yardımcı olmayacak. Diğer önemli özellikleri de düşünmelisiniz.
İçgörüler için teşekkürler! –