RDD
bir parke dosyası olarak kaydetmek istiyorum. Bunu yapmak için, ben DataFrame
için RDD geçmek ve sonra bir parke dosyası olarak DataFrame
kaydetmek için bir yapıyı kullanın:RDT'den DataFrame'e geçirmek için StructType oluşturma nasıl otomatikleştirilir
val aStruct = new StructType(Array(StructField("id",StringType,nullable = true),
StructField("role",StringType,nullable = true)))
val newDF = sqlContext.createDataFrame(filtered, aStruct)
soru nasıl hepsi StringType
olduğunu varsayarak bütün sütunlar için otomatik aStruct
yaratmaktır? Ayrıca, nullable = true
'un anlamı nedir? Tüm boş değerlerin Null
ile değiştirileceği anlamına mı geliyor?
Özelliklerin listesi uzunsa ne olur? Kullanmaktan kaçınmak istiyorum ("id", "rol"). Her RDD'nin 'RDD [Map [String, Any]] 'işlevine sahip olduğu ve String'in özellikte olduğu varsayılarak, özellik listesi oluşturulabilir mi? – duckertito
Özelliklerin listesi uzunsa, 'toDF' parametresine hiçbir geçit veremezsiniz (bu da kıvılcımın _1', '_2' ... sütun isimlerini kullanmasına neden olur) ya da' colNames' listesini kullanabilir ve paketini açabilirsiniz. öylesine: 'myRDD.toDF (colNames: _ *)' –
@duckertito En son düzenlemeye bak –