1

Hem sayısal özellikler hem de metin özellikleri temelinde bir sosyal ağdaki bir gönderideki beğenilme sayısını tahmin etmeye çalışıyorum. Şimdi gerekli özelliklere sahip veri karemem var, ancak yazı metinleriyle ne yapacağımı bilmiyorum. Uygun bir tren matrisini elde etmek için bunu/vektörünü başkalaştırmalı mıyım? Analiz için LinearSVC'yi sklearn'den kullanacağım.nasıl makine öğrenimi için eğitim setinde metin ve sayısal özelliklerini birleştirmek?

my dataframe looks this way

+0

Hangi macnine öğrenme yöntemini kullanmayı planlıyorsunuz? Metin özellikleriyle uğraştığınız için SVM'ler iyi bir seçim olabilir. –

+0

Üzgünüz, bundan bahsetmedim, evet, SVM kullanacağım. Doğrusal SVC. – dbulgakov

cevap

0

metninizi dönüştürebilir farklı pek çok yolu sayısal olanları içine özellikleri vardır. En yaygın yöntemlerden

biri Kelimeler yaklaşımın Çanta olduğunu. Metninizi, her kelimenin oluşumları ile bir diziye dönüştürdüğünüz yer.

scikit-learn kullanıyorsanız, onların Text Feature extraction User Guide numaralarını okumanızı öneririz.

Ayrıca metin verilerini işlemek için daha karmaşık yollar NLTK toolkit bak.

+0

Cevabınız için teşekkür ederiz. Anladığım kadarıyla, bir Böcek Sözüne ihtiyacım var. Mesajların metin verilerini şimdiden parçalara ayırdım ve ön işlem yaptım. Ben gelecek SVM analizi için bir matris içine katılmasına nasıl sonra ne hiçbir fikrim yok. – dbulgakov

+0

senin fikrin var ve benim kodunda donuk hatalar bulundu. Cevabınız için teşekkür ederim:) – dbulgakov