Veri kümemde çok dengesiz,% 90 negatif örnek ve% 10 pozitif örnek var. Scale_pos_weight parametresini kullanmaya çalışıyorum ve 9 olarak ayarladım. Bu paramın mekanizması nedir? Aslında ne anlama geldiğini merak ediyorum: Pozitif örnekleri 9 kez tekrarlamak anlamına mı geliyor? Ya da her zaman 1/9 örnek negatif örnek çekin ve modeli birçok kez eğitin. Ayrıca, negatif örnekleri sadece pozitif olanlardan biraz daha fazla olan bir veri kümem varsa, parametreyi tekrar belirtmem gerekir mi?xgboost'ta 'scale_pos_weight' param kullanmanın mekanizması nedir?
6
A
cevap
0
Belgede, bu parametrenin ne yaptığını açıkça belirten herhangi bir yerde daha önce hiç görmedim. Bununla birlikte, ikincisinin, yani negatif örneklerin 1/9'unu temel alan ağaç oluşturduğundan eminim. Her ne kadar her ikisi de veriler iyi olursa aynı etkiye sahip olsa da, negatiflerin bir alt kümesini çizmek, daha kolay çapraz doğrulamaya izin verdiği için modelleme kuralıdır, çünkü artık birbirinize karşı kontrol edebileceğiniz 9 eğitim setine sahipsiniz.
Bir yan not olarak, 90/10 bölünmenin dengesiz olduğunu varsaymazdım. Bu, birçok durumda alacağınızdan çok daha iyidir ve yeniden dengelemenin her zaman yararlı olup olmadığına göre debate vardır.
Bu, https://github.com/dmlc/xgboost/issues/2428 adresindeki doğru açıklamadır. –