2009-12-09 18 views
5

Şu anda büyük bir dengesiz veri setleri ile uğraşmak zorunda kalırken bir makine öğrenme problemi ile zorluyorum. Yani altı sınıf var ('1', '2' ... '6'). Ne yazık ki, örn. '1' sınıfı için 150 örnek/örnek, '2' 90 örnek ve '3' sınıfı için sadece 20. Bu sınıflar için kullanılabilir örnek olmadığından diğer tüm sınıflar "eğitimli" olamaz. Şu ana kadar, WEKA'nın (kullandığım makine öğrenme takımı) bu denetlenmiş "Yeniden Örnek" filtresini sağladığını öğrendim. Bu filtreyi 'noReplacement' = false ve 'bialToUniformClass' = 1,0 ile uyguladığımda, bu durum örneklerin sayısının güzel ve neredeyse eşit olduğu ('1' sınıfı '..' 3 've diğerleri için) bir veri kümesiyle sonuçlanır. boş kal).WEKA Örnek Filtresi - Sonuç nasıl yorumlanır

Sorum şu anda: WEKA ve bu filtre farklı sınıflar için "yeni"/ek örnekler nasıl üretir?

Herhangi bir ipucu veya öneriniz için şimdiden çok teşekkür ederiz. WEKA en denetimli Örneklenir filtresini kullanma

Alkış Julian

cevap

2

bir sınıfa örneklerini ekler. Bu, sonuç verisi kümesine yalnızca birkaç kez birden fazla örneğe sahip olan sınıftan örnekler ekleyerek gerçekleştirildi. Bu nedenle, sonuçta elde edilen veri seti, sadece birkaç örneğin mevcut olduğu bir sınıf açısından güçlü bir şekilde önyargılıdır.

1

Yapmıyor. Mevcut örnekleri yeniden örneklemek. Bir sınıf-2 örneğiniz varsa ve 1.0'lık bir önyargıyla yeniden örnekleme isteğinde bulunursanız, o örnekte N kopyaları ve daha önce verileri olan birbirlerinin diğer N örneğini bekleyebilirsiniz.

1

Ön işlem sırasında SMOTE filtresiyle deneyin.

Veri kümenizi, küçük sınıf için yeni veriler oluşturarak dengeleyin.