DataFrame'den S3'e bir parke dosyası yazıyorum. Kıvılcım UI'sine baktığımda, tüm görevleri görebiliyorum ama 1 hızlı bir şekilde yazma aşamasını tamamladı (ör. 199/200). Bu son görev sonsuza kadar sürecek gibi görünüyor ve çok sık, yürütücü bellek sınırını aşması nedeniyle başarısız oluyor.Spark yazmak S3 to parke son görev sonsuza kadar sürer
Bu son görevde neler olduğunu öğrenmek istiyorum. Nasıl optimize edilir? Teşekkürler.
Bu son görev yürütücüsünün tamamlanmış diğer yürütücülerle karşılaştırıldığında çok daha fazla karışık okuduğunu fark ettim. Bu, bölümlemenin optimal olmadığı anlamına mı geliyor? Nasıl önlenir? – user2680514
Spark 1.3.1 kullanıyorum – user2680514
Verilerin çarpık olup olmadığını belirlemek için bu son dosyanın boyutuyla diğerlerine göre daha fazla bilgiye ihtiyacımız var. OOM hataları hakkında söyledikleri göz önüne alındığında, veri çarpıklığı sorun olduğunu düşünüyorum. Bazı kodlar olmadan, herhangi bir şeye yardım etmek zor olacaktır, ama bu denemeyi deneyin. – BAR