2008-09-15 21 views
3

İçerik temelli metinler için otomatik olarak kategoriler nasıl bulunur?Metin İçeriğine Göre Nasıl Kategorize Edilir?

+1

Orijinal gönderi, yazarın zaten kategorileri olup olmadığını ve sınıflandırmak istediğini veya istemediklerini ve bunları keşfetmesi gerektiğini belirtmediler. –

cevap

0

, içeriği kategorize metne veya multimedya olmak için en iyi yolu bir taxonomy kullanmaktır. İyi bilinen CMS'lerin çoğu Taksonomi için destek oluşturdu. Drupal, orada bulunan çeşitli CMS'ler arasında taxonomy için en iyi desteklerden birine sahiptir.

+2

Bunu en iyi yol olarak düşünmüyorum. –

2

Ben Natural Language Toolkit ile birlikte metin sınıflandırma kütüphaneleri bakmak için teşvik edecek . Python'a aşina olmasanız bile, API'yi oldukça sezgisel bulacağınızı düşünüyorum. NLTK Book'da birçok iyi örnek var ve posta listesindeki insanlar da oldukça faydalı.

0

Metin kategorizasyonu yapmanın en kolay yolu bag-of-words gösterimini kullanmaktır. Her dokümandaki kelimelerin/n gramlarının özellikleri olarak kullanılabilir. Bununla, her belgeyi metrik uzayda vektör olarak gösterebilirsiniz. Daha sonra, içerik açısından benzer belgeleri gruplamak için clustering uygulayabilirsiniz. Örneğin, sözde vektörleri bir araya getirmek için bu vektörlerle k-aracı kümeleme kullanabilirsiniz. Python tabanlı metin madenciliği çalışma tezgahı, NTLK, bu gibi işleri hızlı bir şekilde denemek için mükemmeldir (genel olarak, python metinle çalışmak için oldukça iyidir). Bunu faydalı bulabilirsin.