2013-03-27 14 views
5

Ben bir dizidir bir ben scikit en tfidf vectorizer kullanılarak elde edilen csr_matrix ve y olarak X'i sahipBir gensim corpus değişkenini bir csr_matrix ile nasıl başlatırsınız?

Planım LDA kullanılarak özellikleri oluşturmaktır, ancak, X ile bir gensim en korpus değişkeni nasıl başlatıldığını bulmak için başarısız bir csr_matrix olarak. Başka bir deyişle, gensim belgelerinde gösterildiği gibi bir corpus indirmek veya X'i yoğun bir matrise dönüştürmek istemiyorum çünkü çok fazla bellek tüketir ve bilgisayar askıda kalabilir. Kısacası

, sorularım

  1. nasıl I (seyrek) bir csr_matrix bütün külliyatını temsil sahip olduğu göz önüne alındığında, bir gensim külliyat başlatmak mı, şu vardır?
  2. Özellikleri ayıklamak için LDA'yı nasıl kullanırsınız?
+0

Aynı zamanda terim frekans matrisini bu yönteme de iletebilir miyiz? – Shashank

cevap

7

Gensim bunu sizin için tür bir yarı iyi gizlenmiş bir işlevi vardır:

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

"sınıfı gensim.matutils.Sparse2Corpus (seyrek, documents_columns = True) dönüştürme bir scipy.sparse biçimindeki matris, bir akış gensim corpus biçiminde. "

CountVectorizer ile çıkarılan ve daha sonra gensim'e yüklenen bir corpus kullanarak bununla biraz başarılı oldum.

+0

Milyonlarca teşekkürler @Fred, çekicilik gibi çalıştı! – Curious