2016-03-29 34 views
1

Yanıt değişkeni bölünmesi% 98 (Yanlış) -2% (Doğru) olan bir rasgele orman sınıflandırma modeli yapıyorum. Bunun için Scikit Learn'in RandomForest sınıflandırıcısını kullanıyorum.Rastgele orman için Tabakalı örnekleme -Python

Bu dengesiz veriyi işlemenin ve çok fazla örneklemeyi önlemenin en iyi yolu nedir?

+0

Bu soruya daha önce de cevap verdim. Lütfen kontrol edin. http://stackoverflow.com/a/36255925/2523817 –

cevap

0

class_weight parametresini kullanabilirsiniz. forma {class_label: weight}

Sen küçük sınıfa daha fazla ağırlık vermek ve çapraz doğrulama kullanarak en iyi ağırlığını bulabilirsiniz sınıflara ilişkili

Ağırlıklar.

Örneğin class_weight={1: 10, 0:1}. Sınıflandırılmış 1'e daha fazla ağırlık verir.