Ben yerel olarak pyspark 1.4 içinde dataframes ile uğraşıyorum ve sorunları çözmek için çift kopyalar yöntemi alma sorunları yaşıyorum. "AttributeError: 'listesindeki' nesnenin özniteliği yoktur 'dropDuplicates'" hatasını döndürmeye devam eder. Neden tam olarak emin değilim neden latest documentation sözdizimini takip ediyor gibi. Bu işlevsellik veya bir şey için bir ithalatı kaçırıyormuşum gibi görünüyor.pyspark içinde bir veri çerçevesinden çiftleri kaldırmak
#loading the CSV file into an RDD in order to start working with the data
rdd1 = sc.textFile("C:\myfilename.csv").map(lambda line: (line.split(",")[0], line.split(",")[1], line.split(",")[2], line.split(",")[3])).collect()
#loading the RDD object into a dataframe and assigning column names
df1 = sqlContext.createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4']).collect()
#dropping duplicates from the dataframe
df1.dropDuplicates().show()
Tamam, bu şimdi mantıklı. – Jared