2016-03-24 5 views
2

2d numpy dizilim var. Matristeki her satırın rdd'deki bir giriş olduğu yerden bir pyspark rdd nasıl oluşturabilirim?numpy matrix'i pyspark rdd'ye dönüştürün

Şöyle ki:

rddData.take(1)[0] == list(aaData[0]) 
aaData olan

numpy 2d dizisi (matris) ve rddDataaaData oluşturulan RDD mı?

cevap

2

Sadece parallelize o:

mat = np.arange(100).reshape(10, -1) 
rdd = sc.parallelize(mat) 

np.all(rdd.first() == mat[0]) 
## True