Metin belgelerini metin sınıflandırması için özellik vektörleri olarak nasıl gösterebilirim?

Yaklaşık 10.000 metin belgesine sahibim.Metin belgelerini metin sınıflandırması için özellik vektörleri olarak nasıl gösterebilirim?

Bunları özellik vektörleri olarak nasıl temsil edebilirim, böylece bunları metin sınıflandırması için kullanabilirim?

Özellik vektörü temsilini otomatik olarak yapan herhangi bir araç var mı?

kaynak

2012-02-14 tina

En kolay yaklaşım bag of words modeliyle gitmek. Her belgeyi, sıralanmamış bir sözcük koleksiyonu olarak temsil ediyorsunuz.

Büyük olasılıkla noktalama işaretlerini çıkarmak ve büyük/küçük harfleri göz ardı etmek isteyebilirsiniz. Ayrıca, 've', 'veya' ve 'gibi genel kelimeleri de kaldırmak isteyebilirsiniz.

(demek) numunenizden 10.000 temsilci kelimeleri seçmek olabilecek bir özellik vektörü içine bu uyum ve belge i aksi kelimeyi j ve v[i,j] = 0 içeriyorsa bir ikili vektör v[i,j] = 1 sahip olmak.

kaynak

2012-02-14 08:14:38

MonkeyLearn'a bir göz atın, sahip olduğunuz metin örneklerinden (belgeler) öğrenmek için makine öğrenimini kullanan metin sınıflandırıcılarını kolayca oluşturabilirsiniz. Özellik vektörünü otomatik olarak öğrenir. Ayrıca, n-gram kullanmak, stemming veya stopwords filtrelemeyi yapmak isterseniz de ayarlayabilirsiniz.

kaynak

2015-02-18 15:21:16

Özellik vektörü temsillerinin sayısını, örneğin rnn-lstm'deki bir hikaye kitabını nasıl eğitir ve ardından cümleleri ondan tahmin etmek nasıl belirler? "Özelliklerin sayısı" 1 olur mu, çünkü sadece ağın adım başına harf kümesinin uzunluğundan ne yapabildiğini öğrenmesini istiyorsun? – naisanza

Sorunun gerçekten iyi bir cevabını vermek gerekirse, ne tür bir sınıflandırmanın ilgilendiğini bilmek faydalı olacaktır: tür, yazar, duygular vs. gibi. Stilistik sınıflandırma için, örneğin, işlev sözcükleri önemlidir İçeriğe dayalı bir sınıflandırma için sadece gürültü vardır ve genellikle bir durdurma sözcüğü listesi kullanılarak filtrelenir. İçeriğe dayalı bir sınıflandırma ile ilgileniyorsanız, bir belge için tipik olan ve tüm metin koleksiyonunda nadiren ender bulunan kelimeleri vermek için terim sıklığı/ters belge sıklığı gibi bir ağırlıklandırma şeması kullanmak isteyebilirsiniz (1). daha fazla ağırlık Bu, metinlerin bir vektör uzay modeli olduğunu varsayar, bu da metnin kelime temsili torbasıdır. (Bkz. Vector Space Modell ve tf/idf'daki Wikipedia) Genellikle tf/idf, yalnızca bir belgede var olan bir terimin olup olmadığını içeren bir ikili sınıflandırma şemasından daha iyi sonuçlar verir. Bu yaklaşım, Python'un scikit-öğrenme gibi makine öğrenme kütüphanelerinin, metin koleksiyonunu tf/idf'yi bir ağırlık düzeni olarak kullanarak bir matrise dönüştüren kolaylık yöntemleri sunacak şekilde kurulmuş ve yaygındır.

kaynak

2015-03-11 04:53:44

Metin belgelerini metin sınıflandırması için özellik vektörleri olarak nasıl gösterebilirim?

cevap

İlgili konular