Bir RDD olarak aşağıdaki tablo vardır:Nasıl yinelenen değerleri kaldırmak için bir RDD [PYSPARK]
BenValue
tüm çiftleri kaldırmak istediğiniz
Key Value
1 y
1 y
1 y
1 n
1 n
2 y
2 n
2 n
.
Çıktı böyle gelmelidir: Ben nasıl uygulanacağını bilmiyorum
[(u'1',u'n'),(u'2',u'n')]
: pyspark çalışırken, çıktı böyle anahtar-değer çiftlerinin listesi olarak gelmelidir
Key Value
1 y
1 n
2 y
2 n
Burada for
döngü. Normal bir Python programında çok kolay olurdu.
Bunun için pyspark
'da bazı işlevler var mı acaba?
RDD için kısaltma nedir aka
? – user1767754
Bir kümeye dönüştürebilirsiniz, sonra her şey yalnızca orada bir kez – user1767754
Esnek Dağıtılmış Veri Kümesi. – COSTA