6
Spark ile iki RDD'ye python ile nasıl katılır? Varsayalım
rdd1 = ((a, 1), (a, 2), (b, 1)),
rdd2 = ((a, ?), (a, *), (c, .)).
((a, (1, ?)), (a, (1, *)), (a, (2, ?)), (a, (2, *))).
Herhangi kolay yöntemler üretmek ister misiniz? Sanırım bu çapraz birleştirmeden farklı ama iyi bir çözüm bulamıyor. Çözümümün Sen çok basit katılmak, örneğin aradığınız
(rdd1
.cartesian(rdd2)
.filter(lambda (k, v): k[0]==v[0])
.map(lambda (k, v): (k[0], (k[1], v[1]))))
Açıkladığınız şey aslında bir doğal birleştirme. Çapraz birleştirmek sadece bir Kartezyen ürünüdür. – zero323