Bir PySpark işi çalıştırıyorum ve ben şu mesajı alıyorum:PySpark için Pencere işlevi bölümü nasıl ayarlanır?
WARN org.apache.spark.sql.execution.Window: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
mesajı neyi ifade eder ve nasıl bir pencere operasyon için bir bölüm tanımlıyorsunuz?
DÜZENLEME: Bütün bir sütun üzerinde sıralamak için çalışıyorum
.
My veri olarak düzenlenmiştir:
A
B
A
C
D
Ve istediğim:
A,1
B,3
A,1
C,4
D,5
sanmıyorum orada gerektiği bunun için bir .partitionBy() tarafından, sadece .orderBy(). Sorun şu ki, bu performans düşüşüne sebep oluyor. Pencere işlevi olmadan bunu başarmanın başka bir yolu var mı? İlk sütuna göre bölümlemek için
, sonuç şöyle olacaktır: Ben istemiyorum HangiA,1
B,1
A,1
C,1
D,1
.
, kabul edin Bu yüzden bu soruyu kapatabiliriz! – eliasah
Üzgünüz, henüz hiçbir cevap henüz bir çözüm sağladı. – cshin9
@ cshin9 Aslında, mevcut cevap tam olarak sorunuzu ele alıyor. Etkin bölümleme yapmadan pencere fonksiyonu yapabilen özel bir sihir yoktur. – zero323