Ben Özellikle bu yazı sözü columnSimilarities() fonksiyonu fonksiyonları columnSimilarities(), computeColumnSummaryStatistics()PySpark içinde RowMatrix yöntemlerini erişilemiyor: columnSimilarities(), computeColumnSummaryStatistics()
- kullanmaya çalışıyorum:
https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html
ben mlib gelen seyrek Vektörlerin listesini kullanıyorum.
AttributeError: 'RowMatrix' object has no attribute 'computeColumnSummaryStatistics'
veya
AttributeError: 'RowMatrix' object has no attribute 'columnSimilarities'
her zaman fonksiyonları çalıştırın:
sparse_vectors = []
for cust, group in df.groupby(0):
i_v = zip(group[1].values, group[2].values)
i_v = sorted(i_v)
indices = [x[0] for x in i_v]
values = [x[1] for x in i_v]
sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))
rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)
hatası alıyorum.
Scala Kıvılcımı'nın aksine bu bir PySpark sorunu mu? Ayrıca bir google arama yoluyla RowMatrix işlevlerinin bir sayfasını da bulamıyorum.
Eğer
Tamam teşekkürler. Kaynaktan inşa etmedim. – user1340048
Bu yöntem yalnızca IndexedRowMatrix ile çalışır? Veya RowMatrix için de kullanılabilir mi? – user1340048
Sadece "IndexedRowMatrix", ancak bu kodun RowMatrix üzerinde de çalışması zor olmamalı. – zero323