2015-08-04 14 views
5

DataFrame'den S3'e bir parke dosyası yazıyorum. Kıvılcım UI'sine baktığımda, tüm görevleri görebiliyorum ama 1 hızlı bir şekilde yazma aşamasını tamamladı (ör. 199/200). Bu son görev sonsuza kadar sürecek gibi görünüyor ve çok sık, yürütücü bellek sınırını aşması nedeniyle başarısız oluyor.Spark yazmak S3 to parke son görev sonsuza kadar sürer

Bu son görevde neler olduğunu öğrenmek istiyorum. Nasıl optimize edilir? Teşekkürler.

+0

Bu son görev yürütücüsünün tamamlanmış diğer yürütücülerle karşılaştırıldığında çok daha fazla karışık okuduğunu fark ettim. Bu, bölümlemenin optimal olmadığı anlamına mı geliyor? Nasıl önlenir? – user2680514

+0

Spark 1.3.1 kullanıyorum – user2680514

+0

Verilerin çarpık olup olmadığını belirlemek için bu son dosyanın boyutuyla diğerlerine göre daha fazla bilgiye ihtiyacımız var. OOM hataları hakkında söyledikleri göz önüne alındığında, veri çarpıklığı sorun olduğunu düşünüyorum. Bazı kodlar olmadan, herhangi bir şeye yardım etmek zor olacaktır, ama bu denemeyi deneyin. – BAR

cevap

0

Veri çarpıklığınız olduğu anlaşılıyor. S3'e yazmadan önce,numaranızı DataFrame numaralı telefondan arayarak düzeltebilirsiniz.

0

Bu makale - The Bleeding Edge: Spark, Parquet and S3 Spark, S3 ve Parke hakkında çok sayıda yararlı bilgiye sahiptir. Özellikle, sürücünün _common_metadata_ dosyalarının nasıl yazıldığını ve biraz zaman alabileceğini anlatıyor. Bunu kapatmak için bir yol var. Ne yazık ki, ortak meta verilerinin kendileri oluşturmaya devam ettiklerini, ancak nasıl yaptıkları hakkında gerçekten konuşmadıklarını söylüyorlar.