Sütunlardan birinin kategorik bir değişken içerdiği bir dizi veri çerçevem var. Birkaç kukla değişkene dönüştürmek istiyorum, bu durumda normalde get_dummies
kullanıyorum. Ne olur? get_dummies
, ne kadar kategoriye sahip olduğunu bulmak ve böylece uygun sayıda sahte değişkenler oluşturmak için her bir veri çerçevesindeki veriyi inceler. Bu, get_dummies
. Ancak, şu anda çalışmakta olduğum problemde, aslında mümkün olan kategorilerin ne olduğunu biliyorum. Ancak her bir veriye ayrı ayrı bakıldığında, tüm kategoriler zorunlu olarak görünmez.Tüm kategoriler mevcut değilken kukla değişkenler
Soruma şudur: get_dummies
(veya eşdeğer bir işlev) kategorilerinin adlarını geçmek için bir yol var, böylece belirli bir veri alanında görünmeyen kategoriler için, yalnızca bir 0s sütun? Bu kılacak
şey:
categories = ['a', 'b', 'c']
cat
1 a
2 b
3 a
bu ol:
cat_a cat_b cat_c
1 1 0 0
2 0 1 0
3 1 0 0
eğitim veri kümesi bulunan ancak deney veri kümesindeki kategorisinde kaynaklanan sütunu kaldırmak
Dikkat ettiyseniz ' sklearn.OneHotEncoder'. Bakın: http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html – ssm
@ssm: 'get_dummies', çıktıdaki ek yararla birlikte" OneHotEncoder "ile aynı işlevselliği uygular Düz bir "ndarray" yerine etiketli sütunlarla anlaşılması kolay pandalar. –
Soruyu yanlış anlamıştım. Teşekkürler! – ssm