, bazı kategorik dize değerlerine sahip bir DataFrame'e sahiptir (örn. Uuid | url | browser).ML algoritmaları için DataFrame sütunları nasıl vektör edilir?
Çift matrisi kabul eden bir ML algoritması yürütmek için onu çift olarak dönüştürürüm. Şimdi mesele i bir foreach sütun yineleme olduğunu ifade etti
def str(arg: String, df:DataFrame) : DataFrame =
(
val indexer = new StringIndexer().setInputCol(arg).setOutputCol(arg+"_index")
val newDF = indexer.fit(df).transform(df)
return newDF
)
:
dönüşüm yöntemiyle olarak ben çift değerlere benim dize değerleri map StringIndexer (1.4 kıvılcım) kullanılan, bu yüzden böyle bir işlevi tanımlanan df, bu işlevi çağırmak ve ayrıştırılmış çift sütunda orijinal dize sütunu eklemek (veya dönüştürmek), bu yüzden sonuç şöyle olacaktır:
ilk df:
[String: uuid|String: url| String: browser]
Final df: Yine
val transformed: DataFrame = df.columns.foldLeft(df)((df, arg) => str(arg, df))
, bunun iyi bir yaklaşım olmadığını iddia edecektir: peşin