Ben Doc2vec kullanımı için yeni. Başlamadan önce bazı tavsiyelerde bulunabilsem, çok fazla zaman kazandıracak. Verilerim, sürekli olarak gelen bir metin verisi (tweet'ler gibi) akışıdır. Bu tweet'leri kümelemek için, metin içeriğini sabit boyutlu bir vektöre indirgemek ve belgeler arasında karşılaştırmak için doc2vec kullanmayı düşünüyordum. Bu durumda, metin verileri zamanla birikmekte, bu hala Doc2Vec ile kullanılabilir, modeli tekrar tekrar öğrenmem gerekebilir (olabilir!) Veya Wikipedia ya da gibi bazı büyük dosyaları kullanabilir miyim? Doc2Vec modelini eğitmek için büyük newscorpus.Metin verilerim aşamalı olarak artıyorsa doc2vec kullanılabilir mi?
Herhangi bir öneriniz size yardımcı olacaktır!
Teşekkürler.
açıklama için çok teşekkür ederim! Çok yardımcı olur. Doc2vec için herhangi bir örnek çalışma kodunuz var mı? –
Gensim docs/notebooks dizini, orijinal Paragraf Vektörleri kağıdında bir duygu-analiz deneyi kısmen yeniden üreten bir demo doc2vec not defteri içerir. – gojomo