2013-03-06 7 views
5

scikit-learn ile başlıyorum ve bir dizi belgeyi kümeleme ve sınıflandırma uygulayabileceğim bir biçime dönüştürmeye çalışıyorum. Vektörizasyon yöntemleri ve dosyaları yüklemek ve kelime hazinelerini indekslemek için tfidf dönüşümleri ile ilgili ayrıntıları gördüm.scikit-learn, bir vektör kümesi kümesine özellikler ekleme

Ancak, vb yazar olarak her belgeler için fazladan meta veri,, konular listesi sorumluydu bölünme var

nasıl Vektörizasyonu işlevi tarafından oluşturulan her bir doküman vektörü özellikler katabilir?

cevap

8

Ek kategorik veriler için DictVectorizer kullanabilir ve daha sonra bunları birleştirmek için scipy.sparse.hstack kullanabilirsiniz.

+0

mükemmel, deneyeceğim ama hstack ihtiyacım olan şey gibi görünüyor. Teşekkürler! – Mortimer