Topladığım tweetleri sınıflandırmak için Scikit'ten SVM uygulamasına çalışıyorum. Yani, iki kategori olacak, onları A ve B olarak adlandırın. Şimdilik, iki metin dosyasında 'A.txt' ve 'B.txt' olarak kategorize edilen tüm tweet'lere sahibim. Ancak, Scikit Learn SVM'nin ne tür veri girdisi istediğinden emin değilim. Anahtarları ve bir sözlük sözlüğü (unigrams) ve değerleri olarak sıklıklarını içeren bir sözlüğe (A ve B) sahip bir sözlüğe sahibim. Maalesef, öğrenmeyi öğrenmek ve SVM'yi işe almak için ne yapmam gerektiğini bilmiyorum. Ve SVM'nin numpy.ndarray veri girişinin türü olarak kullandığını buldum. Kendi verilerime dayanarak bir tane oluşturmam gerekiyor mu? Böyle bir şey olmalı mı?Scikit Learn SVM kullanarak metin sınıflandırması için veri hazırlayın SVM
Labels features frequency
A 'book' 54
B 'movies' 32
Herhangi bir yardım için teşekkür ederiz.
multinomial naif bayes/SVM her ikisi de sizin için çalışacaktır. –
"text classification example" ifadesinin bağlantısı 404 –
'dir. Rapor için teşekkür ederiz. – ogrisel