2014-07-14 14 views

cevap

2

Kullanabileceğiniz birçok seçenek vardır ve bu yanıt nasıl karşılaştırıldıklarıyla ilgili olarak agnostiktir.

Böyle büyük bir veri kümesindeki önemli şeyin, yazılım uygulamasının zorunlu olarak kullanılmadığı ve kullanılan posterior çıkarsama yöntemidir. this paper'a göre çevrimiçi Değişken Bayes çıkarımı, Gibbs örneklemesinden daha fazla zaman ve alan açısından daha verimlidir. Hiç kullanmadım olsa da, gensim paketi iyi görünüyor. Python'da ve projenin webpage numaralı dersinde derinlemesine dersler var.

Kaynaktan doğrudan gelen kod için, LDA modelinin here modelindeki yazarlardan biri olan David Blei'nin web sayfasına bakın. Birkaç dilde, çeşitli dillerde (R, Java, C++) bağlantı kuruyor. Ben konu modelleme destekler böyle graphlab gibi bir "büyük veri" aracını kullanmanızı öneririz

1

GraphLab topic model toolkit oluşturun (Python API bağları ile) büyük bir veri kümesi işlemek gerekir.