2016-03-23 6 views
0

:boyut uyumsuzluğu hatası kullanılarak Kıvılcım/MLLib kmeans aşağıdaki biçimde bir giriş dosyası var

1, 4, 5, 0, 3 
0, 4, 5, 1, 4 
..... 

Ben dosyayı yüklenir ve Means eğitimli ve şimdi KMeansModel verilen tahmin işlevi kullanmak istiyorum ama Boyut uyuşmazlığı hatası alıyorum ve hata ayıklama hakkında nasıl gideceğimi bilmiyorum. Öngörme işlevinin girdisi hakkında herhangi bir belge görünmüyor.

kodu ...

Eğer model.predict komutuna "dizi" eklemeyi deneyebilir miyim
data = sc.textFile(join(movieLensHomeDir, "test.txt")) 
ratings = data.map(lambda line: [float(x.rstrip().lstrip().split('\r\n')[0]) for x in line.split(",")]) 
model = KMeans.train(ratings, 15, maxIterations=15, runs=10, initializationMode="random") 
labels = model.predict([0, 5, 3, 2, 4]) 
+0

ilk RDD Harita (uzunluğunu hesaplamak) Ben bir kayıt muhtemelen sonuncusu eksik veya ek değerler –

cevap

0

? , ör. Kmeans için

labels = model.predict((array([0, 5, 3, 2, 4])) 

belgeler burada bulunabilir: http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.KMeansModel

+0

Teşekkür Yaron emin değilim. Bu yüzden birlikte kümelenmiş öğeleri almak istedim. Örneğin, benzer öğeleri kümelemek için KMeans uygularım. Daha sonra, yeni bir öğe sağlayarak, uygun kümeyi bularak ve ardından bu kümedeki öğeleri önererek öğeleri önermek istiyorum. ... hangi öğelerin bir araya toplandığını belirlemenin bir yolu var mı? Bu konuda dokümanlar var. – user2388191