Sorunun gerçekten iyi bir cevabını vermek gerekirse, ne tür bir sınıflandırmanın ilgilendiğini bilmek faydalı olacaktır: tür, yazar, duygular vs. gibi. Stilistik sınıflandırma için, örneğin, işlev sözcükleri önemlidir İçeriğe dayalı bir sınıflandırma için sadece gürültü vardır ve genellikle bir durdurma sözcüğü listesi kullanılarak filtrelenir. İçeriğe dayalı bir sınıflandırma ile ilgileniyorsanız, bir belge için tipik olan ve tüm metin koleksiyonunda nadiren ender bulunan kelimeleri vermek için terim sıklığı/ters belge sıklığı gibi bir ağırlıklandırma şeması kullanmak isteyebilirsiniz (1). daha fazla ağırlık Bu, metinlerin bir vektör uzay modeli olduğunu varsayar, bu da metnin kelime temsili torbasıdır. (Bkz. Vector Space Modell ve tf/idf'daki Wikipedia) Genellikle tf/idf, yalnızca bir belgede var olan bir terimin olup olmadığını içeren bir ikili sınıflandırma şemasından daha iyi sonuçlar verir. Bu yaklaşım, Python'un scikit-öğrenme gibi makine öğrenme kütüphanelerinin, metin koleksiyonunu tf/idf'yi bir ağırlık düzeni olarak kullanarak bir matrise dönüştüren kolaylık yöntemleri sunacak şekilde kurulmuş ve yaygındır.
Özellik vektörü temsillerinin sayısını, örneğin rnn-lstm'deki bir hikaye kitabını nasıl eğitir ve ardından cümleleri ondan tahmin etmek nasıl belirler? "Özelliklerin sayısı" 1 olur mu, çünkü sadece ağın adım başına harf kümesinin uzunluğundan ne yapabildiğini öğrenmesini istiyorsun? – naisanza