DAG performans - RDD'yi yansıtan ve önbelleğe alan farklı + sayım için bir kez ve daha sonra da kontrol edilen kopyasını oluşturmak için tamamen İKİNCİ bir süre.Kıvılcım RDD kontrol noktası Ben kodu çalıştırdığınızda aşağıdaki gibi iki kere
RDD halihazırda gerçekleştiğinden ve önbelleğe alındığından, neden bu noktadan faydalanmıyor ve önbelleğe alınmış bölümleri diske kaydetmiyor?
Spark'i bundan yararlanmaya zorlamak için mevcut bir yol (bir çeşit yapılandırma ayarı veya kod değişikliği) var mı ve sadece işlemi ONCE (Çalıştır) komutunu çalıştırıyor ve sadece bir şeyler kopyalamak mı?
Bunun yerine iki kere "maddileştirme" yapmam gerekiyor mu? Bu bilinen bir sorun olabilir gibi https://issues.apache.org/jira/browse/SPARK-8666