makine öğrenme için NaN'ler eksik nasıl baş edilir.?? makine öğrenme algoritması uygulamadan önce veri kümelerinde eksik değerleri ele nasıl piton
Ben eksik NAN değerleri düşmeye akıllı bir şey olmadığını fark ettim. Genelde pandaları kullanarak enterpolasyon yapar (ortalama hesaplar) ve bu tür çalışmalarda bulunan verileri doldurur ve sınıflandırma doğruluğunu geliştirir, ancak yapılacak en iyi şey olmayabilir.
İşte çok önemli bir sorudur. Veri kümesindeki eksik değerleri işlemenin en iyi yolu nedir? Bu veri kümesini görmek Örneğin
, sadece% 30 orijinal veri var.
Int64Index: 7049 entries, 0 to 7048
Data columns (total 31 columns):
left_eye_center_x 7039 non-null float64
left_eye_center_y 7039 non-null float64
right_eye_center_x 7036 non-null float64
right_eye_center_y 7036 non-null float64
left_eye_inner_corner_x 2271 non-null float64
left_eye_inner_corner_y 2271 non-null float64
left_eye_outer_corner_x 2267 non-null float64
left_eye_outer_corner_y 2267 non-null float64
right_eye_inner_corner_x 2268 non-null float64
right_eye_inner_corner_y 2268 non-null float64
right_eye_outer_corner_x 2268 non-null float64
right_eye_outer_corner_y 2268 non-null float64
left_eyebrow_inner_end_x 2270 non-null float64
left_eyebrow_inner_end_y 2270 non-null float64
left_eyebrow_outer_end_x 2225 non-null float64
left_eyebrow_outer_end_y 2225 non-null float64
right_eyebrow_inner_end_x 2270 non-null float64
right_eyebrow_inner_end_y 2270 non-null float64
right_eyebrow_outer_end_x 2236 non-null float64
right_eyebrow_outer_end_y 2236 non-null float64
nose_tip_x 7049 non-null float64
nose_tip_y 7049 non-null float64
mouth_left_corner_x 2269 non-null float64
mouth_left_corner_y 2269 non-null float64
mouth_right_corner_x 2270 non-null float64
mouth_right_corner_y 2270 non-null float64
mouth_center_top_lip_x 2275 non-null float64
mouth_center_top_lip_y 2275 non-null float64
mouth_center_bottom_lip_x 7016 non-null float64
mouth_center_bottom_lip_y 7016 non-null float64
Image 7049 non-null object
"* Veri kümesindeki eksik değerleri işlemenin en iyi yolu nedir? *" I Bu sorunun cevabının hem duruma özgü hem de görüşü temel aldığını iddia eder. – CoryKramer
Eksik değerler içeren satırları bırakabilirsiniz, ancak bu, performansı düşürebilir veya eksik değerleri, değeri etkilemeyen bir değere ayarlayabilir, ancak çok fazla eksik değeriniz varsa, bu durum hala modelinize çarpabilir. . Ortalama/medyanı kullanabilirsiniz ancak tüm yaklaşımların performansını ölçmek ve en iyi olanı görmek zorundasınız, bu özelliklerde herhangi bir değer olup olmadığına ve hangi modele sahip olduğunuza bağlıdır. – EdChum