Spark içinde Scala kullanıyorum ve birleştirilmiş sütunlarım anonim. Veri kümesinden birden çok sütun yeniden adlandırmak için uygun bir yol var mı? Ben as
ile bir şema empoze düşündüm ama anahtar sütun bir yapıdır (groupBy
işlemi nedeniyle), ve bir case class
bir StructType
ile tanımlamak nasıl bulamıyorum. Toplama sütunları nasıl adlandırılır?
val returnSchema = StructType(StructField("edge", StructType(StructField("src", IntegerType, true),
StructField("dst", IntegerType), true)),
StructField("count", LongType, true))
edge_count.as[returnSchema]
ama bir derleme hatası var:
Message: <console>:74: error: overloaded method value apply with alternatives:
(fields: Array[org.apache.spark.sql.types.StructField])org.apache.spark.sql.types.StructType <and>
(fields: java.util.List[org.apache.spark.sql.types.StructField])org.apache.spark.sql.types.StructType <and>
(fields: Seq[org.apache.spark.sql.types.StructField])org.apache.spark.sql.types.StructType
cannot be applied to (org.apache.spark.sql.types.StructField, org.apache.spark.sql.types.StructField, Boolean)
val returnSchema = StructType(StructField("edge", StructType(StructField("src", IntegerType, true),
bize kod gösterebilir misiniz: örneğin
Önce türetilmiş sütun adlarını belirlemek içinprintSchema
kullanmak zorunda? Yani belki daha iyi bir yaklaşım formüle edebilirim? –Üç sütun içeren bir veri kümeniz var. İlk ikisine göre gruplayın ve üçüncüyle sayın. Anahtar o zaman bir tuple. Spark 1.6.2'deyim. Teşekkürler @AlbertoBonsanto! – Emre