Bazı metin verilerini modellemek için scikit öğrenmesinde çeşitli TFIDF sürümlerini kullandım.Kullanım kiosklarını kullanarak TfIdf LDA
vectorizer = TfidfVectorizer(min_df=1,stop_words='english')
çıkan veriler X'in bu biçimindedir:
<rowsxcolumns sparse matrix of type '<type 'numpy.float64'>'
with xyz stored elements in Compressed Sparse Row format>
benim seyrek matris boyutluluğu azaltmak yapmak için bir yol olarak LDA ile deney yapmak istedi. NumPy seyrek matris X'i bir gensim LDA modeline beslemenin basit bir yolu var mı?
lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=100)
Ben scikit görmezden ve gensim öğretici özetliyor yol ama scikit vectorizers basitliğini ve tüm parametreleri gibi olabilir.
sayesinde
G
Müthiş, teşekkürler! Tam olarak ihtiyacım olanı yaptım! – ADJ