Küçük (16M satır) ayrı bir tablo ve büyük (6B satır) eğik tablo arasında bir domuz birleşimi var. Düzenli birleştirme işlemi 2 saat sonra sona erer (bazı değişikliklerden sonra). using skewed
'u denedik ve performansı 20 dakikaya kadar geliştirebildik. biz daha büyük bir çarpık tabloyu (19B satır) çalıştıklarındadomuz eğri büyük bir tabloyla birleşiyor "Bölünmüş meta veri boyutu 10000000 değerini aştı"
ANCAK, biz NUMUNE işi bu mesajı alıyorum:
Split metadata size exceeded 10000000. Aborting job job_201305151351_21573 [ScriptRunner]
at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)
at org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:817) [ScriptRunner]
Biz using skewed
deneyin her zaman tekrarlanabilir ve biz kullandığınızda olmaz düzenli katılım.
mapreduce.jobtracker.split.metainfo.maxsize=-1
'u ayarlamayı denedik ve bunun job.xml dosyasında olduğunu görebiliriz, ancak hiçbir şey değişmez!
Burada neler oluyor? Bu, using skewed
tarafından oluşturulan dağıtım örneğiyle bir hata mı? Neden bu paramın -1
'a değiştirilmesine yardım etmiyor?
bir jira hatası dosyalamaya karar verdi: https://issues.apache.org/jira/browse/PIG-3411, – ihadanny
güncellenecek mapreduce.jobtracker.split.metainfo değiştirdiğini buldu. maxsize, sadece JobTracker seviyesinde, iş seviyesinde çalışmama konusunda bilinir, bakınız: https://groups.google.com/a/cloudera.org/forum/#!topic/cdh-user/UWBMKplvGkg – ihadanny
Bu soruna hiç bir çözüm bulamadınız mı? Benzer bir sorunla karşı karşıyayız. – KennethJ