2015-08-31 37 views
5

Gensim içinde bir LDA modeli için en uygun konu sayısını elde etmeye çalışıyorum. Bulduğum bir yöntem, her model için günlük olasılığını hesaplamak ve her birini birbiriyle karşılaştırmak, örn. The input parameters for using latent Dirichlet allocation DolayısıylaGensim kullanarak LDA Modeli için en uygun konu sayısını elde etmenin en iyi yolu nedir?

azından ben Gensim ile LDA-modelin günlük olasılığını hesaplarken içine baktı ve post aşağıdaki rastladım: temelde update_alpha() yöntemi Huang, Jonathan sayfasında açıklanan yöntemi uygulayan belirten How do you estimate α parameter of a latent dirichlet allocation model?

. Dirichlet dağıtım parametrelerinin maksimum olasılık tahmini. Yine de, bu parametreyi kod değiştirmeden libary kullanarak nasıl elde edeceğimi bilmiyorum.

Bir LDA modelinden Gensim ile günlük olasılığını nasıl alabilirim?

Gensim ile en uygun konu sayısını elde etmek için daha iyi bir yol var mı?

+0

Burada "en iyi" sayıda konuyla ilgili bir cevap bulabilirsiniz: http://stackoverflow.com/questions/31729227/how-to-evaluate-the-best-k-for-lda-using-mallet. Esasen, en fazla sayıda konu dediğiniz şey, verilerde görmek istediğiniz şeylere bağlıdır. – jknappen

+0

Olasılığı bulmayı başardınız mı? – Peanut

cevap

1

Özellikle Gensim hakkında yorum yapamama rağmen, konularınızı optimize etmek için genel bir öneride bulunabilirim.

Belirtildiği gibi, günlük kullanma olasılığı bir yöntemdir. Diğer bir seçenek ise model oluşturma sürecinden çıkarılan bir dizi belge tutmak ve model tamamlandığında konuların üstesinden gelmek ve mantıklı olup olmadığını kontrol etmektir.

Deneyebileceğiniz tamamen farklı bir yöntem, hiyerarşik bir Dirichlet işlemidir; bu yöntem, corpus içindeki konuların sayısını, belirtilmeksizin dinamik olarak bulabilir. en iyi deneyimi seviyesine bağlı olarak, konu modelini parametrelerini belirlemek ve değerlendirmek için nasıl birçok kağıtları bu ve sizin için iyi olabilir veya olmayabilir vardır

:

Rethinking LDA: Why Priors Matter, Wallach, HM, Mimno, D. ve McCallum, A.

Evaluation Methods for Topic Models, Wallach HM, Murray, I., Salakhutdinov, R. ve Mimno, D.

da

, burada hiyerarşik Dirichlet süreci hakkında bir kağıttır:

Hierarchical Dirichlet Processes, Teh, Y.W., Jordan, M.I., Beal, M.J. ve Blei, D.M.