run
parametresini anladığım kadarıyla, en iyi kümeleri almak için KMeans'in yinelenme sayısı ve maxIterations
her run
numaralı yineleme sayısıdır, doğru mu? 5000 veri noktası olması durumunda onlar için en iyi değerler hangileridir?MaxIterations ve MLlib KMeans içinde çalıştırmak arasındaki fark?
cevap
Cevabımı düzenlediğim yanıtı okudum.
i çalıştırmak kmeans optimum kümeleri ve maxIterations almak için tekrarlanır kaç kez her vadede yineleme sayısını ifade eder anlama gibi, Evet, bu doğru
olduğu doğrudur. Normalde sadece bir kez k-anlamına gelir. Maksimum yinelemeler, k-ortalamalarının merkezi güncellemesi döngüsünün gerçekleşmesine izin vereceğiniz maksimum yineleme sayısıdır.
Spark'in uygulaması, ile anlatılanları destekler, yani. sayısını kaç defa algoritmasını çalıştırabilirsiniz. Genellikle gerekli değildir. Özellikle k-araçları metriğinin optimizasyonu, gerçek hedefinizin ne olduğunu optimize etmediğinden dolayı.
5000 veri noktası olması durumunda bunlar için en iyi değerler hangileridir?
Bu tür sorular sormamalısınız, bunlar her zaman sorun ve veriye bağlıdır. Kullandığınız araçları ve ne anlama geldiklerini ve onlarla nasıl yineleneceğini daha iyi anlamak için çalışmalısınız. Bu, bu tür bir soruyu sormak istediğiniz ya da garanti edildiği takdirde, başka hangi bağlamın gerekli olduğu gibi bir durumun ortaya çıkmasından kaçınmanıza yardımcı olacaktır (sadece referans noktalarının sayısı, herhangi bir anlamlı tartışma için yeterli bağlam değildir).