İçerik temelli metinler için otomatik olarak kategoriler nasıl bulunur?Metin İçeriğine Göre Nasıl Kategorize Edilir?
cevap
bu konuda yazılmış iyi bir kağıt vardır: http://www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html
Bağlantı şu anda ölü :( – Tessmore
- Oku Data Mining: Practical Machine Learning Tools and Techniques - Ian H. Witten, Eibe Frank
- Kullanım Weka veya Orange
Ben Natural Language Toolkit ile birlikte metin sınıflandırma kütüphaneleri bakmak için teşvik edecek . Python'a aşina olmasanız bile, API'yi oldukça sezgisel bulacağınızı düşünüyorum. NLTK Book'da birçok iyi örnek var ve posta listesindeki insanlar da oldukça faydalı.
Metin kategorizasyonu yapmanın en kolay yolu bag-of-words gösterimini kullanmaktır. Her dokümandaki kelimelerin/n gramlarının özellikleri olarak kullanılabilir. Bununla, her belgeyi metrik uzayda vektör olarak gösterebilirsiniz. Daha sonra, içerik açısından benzer belgeleri gruplamak için clustering uygulayabilirsiniz. Örneğin, sözde vektörleri bir araya getirmek için bu vektörlerle k-aracı kümeleme kullanabilirsiniz. Python tabanlı metin madenciliği çalışma tezgahı, NTLK, bu gibi işleri hızlı bir şekilde denemek için mükemmeldir (genel olarak, python metinle çalışmak için oldukça iyidir). Bunu faydalı bulabilirsin.
Orijinal gönderi, yazarın zaten kategorileri olup olmadığını ve sınıflandırmak istediğini veya istemediklerini ve bunları keşfetmesi gerektiğini belirtmediler. –