2016-03-30 25 views
4

Ben Özellikle bu yazı sözü columnSimilarities() fonksiyonu fonksiyonları columnSimilarities(), computeColumnSummaryStatistics()PySpark içinde RowMatrix yöntemlerini erişilemiyor: columnSimilarities(), computeColumnSummaryStatistics()

  • kullanmaya çalışıyorum:

https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html

ben mlib gelen seyrek Vektörlerin listesini kullanıyorum.

AttributeError: 'RowMatrix' object has no attribute 'computeColumnSummaryStatistics'

veya

AttributeError: 'RowMatrix' object has no attribute 'columnSimilarities'

her zaman fonksiyonları çalıştırın:

sparse_vectors = [] 

for cust, group in df.groupby(0): 

    i_v = zip(group[1].values, group[2].values) 
    i_v = sorted(i_v) 
    indices = [x[0] for x in i_v] 
    values = [x[1] for x in i_v] 
    sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values)) 

rows = sc.parallelize(sparse_vectors) 
mat = RowMatrix(rows) 

hatası alıyorum.

Scala Kıvılcımı'nın aksine bu bir PySpark sorunu mu? Ayrıca bir google arama yoluyla RowMatrix işlevlerinin bir sayfasını da bulamıyorum.

Eğer

cevap

2

yüzünden şimdilik bu yöntemleri (1.6 Spark) bu PySpark uygulanmadı erişemez ederiz.

IndexedRowMatrix.columnSimilarities (bkz. SPARK-12041) geçerli master'da mevcuttur, ancak kullanmak için Spark'i kaynaktan oluşturmanız gerekir.

+0

Tamam teşekkürler. Kaynaktan inşa etmedim. – user1340048

+0

Bu yöntem yalnızca IndexedRowMatrix ile çalışır? Veya RowMatrix için de kullanılabilir mi? – user1340048

+0

Sadece "IndexedRowMatrix", ancak bu kodun RowMatrix üzerinde de çalışması zor olmamalı. – zero323