2012-02-14 6 views

cevap

8

En kolay yaklaşım bag of words modeliyle gitmek. Her belgeyi, sıralanmamış bir sözcük koleksiyonu olarak temsil ediyorsunuz.

Büyük olasılıkla noktalama işaretlerini çıkarmak ve büyük/küçük harfleri göz ardı etmek isteyebilirsiniz. Ayrıca, 've', 'veya' ve 'gibi genel kelimeleri de kaldırmak isteyebilirsiniz.

(demek) numunenizden 10.000 temsilci kelimeleri seçmek olabilecek bir özellik vektörü içine bu uyum ve belge i aksi kelimeyi j ve v[i,j] = 0 içeriyorsa bir ikili vektör v[i,j] = 1 sahip olmak.

2

MonkeyLearn'a bir göz atın, sahip olduğunuz metin örneklerinden (belgeler) öğrenmek için makine öğrenimini kullanan metin sınıflandırıcılarını kolayca oluşturabilirsiniz. Özellik vektörünü otomatik olarak öğrenir. Ayrıca, n-gram kullanmak, stemming veya stopwords filtrelemeyi yapmak isterseniz de ayarlayabilirsiniz.

+0

Özellik vektörü temsillerinin sayısını, örneğin rnn-lstm'deki bir hikaye kitabını nasıl eğitir ve ardından cümleleri ondan tahmin etmek nasıl belirler? "Özelliklerin sayısı" 1 olur mu, çünkü sadece ağın adım başına harf kümesinin uzunluğundan ne yapabildiğini öğrenmesini istiyorsun? – naisanza

3

Sorunun gerçekten iyi bir cevabını vermek gerekirse, ne tür bir sınıflandırmanın ilgilendiğini bilmek faydalı olacaktır: tür, yazar, duygular vs. gibi. Stilistik sınıflandırma için, örneğin, işlev sözcükleri önemlidir İçeriğe dayalı bir sınıflandırma için sadece gürültü vardır ve genellikle bir durdurma sözcüğü listesi kullanılarak filtrelenir. İçeriğe dayalı bir sınıflandırma ile ilgileniyorsanız, bir belge için tipik olan ve tüm metin koleksiyonunda nadiren ender bulunan kelimeleri vermek için terim sıklığı/ters belge sıklığı gibi bir ağırlıklandırma şeması kullanmak isteyebilirsiniz (1). daha fazla ağırlık Bu, metinlerin bir vektör uzay modeli olduğunu varsayar, bu da metnin kelime temsili torbasıdır. (Bkz. Vector Space Modell ve tf/idf'daki Wikipedia) Genellikle tf/idf, yalnızca bir belgede var olan bir terimin olup olmadığını içeren bir ikili sınıflandırma şemasından daha iyi sonuçlar verir. Bu yaklaşım, Python'un scikit-öğrenme gibi makine öğrenme kütüphanelerinin, metin koleksiyonunu tf/idf'yi bir ağırlık düzeni olarak kullanarak bir matrise dönüştüren kolaylık yöntemleri sunacak şekilde kurulmuş ve yaygındır.