2016-04-01 58 views
0

Ben Doc2vec kullanımı için yeni. Başlamadan önce bazı tavsiyelerde bulunabilsem, çok fazla zaman kazandıracak. Verilerim, sürekli olarak gelen bir metin verisi (tweet'ler gibi) akışıdır. Bu tweet'leri kümelemek için, metin içeriğini sabit boyutlu bir vektöre indirgemek ve belgeler arasında karşılaştırmak için doc2vec kullanmayı düşünüyordum. Bu durumda, metin verileri zamanla birikmekte, bu hala Doc2Vec ile kullanılabilir, modeli tekrar tekrar öğrenmem gerekebilir (olabilir!) Veya Wikipedia ya da gibi bazı büyük dosyaları kullanabilir miyim? Doc2Vec modelini eğitmek için büyük newscorpus.Metin verilerim aşamalı olarak artıyorsa doc2vec kullanılabilir mi?

Herhangi bir öneriniz size yardımcı olacaktır!

Teşekkürler.

cevap

1

gensim Doc2Vec sınıfı yeni belgelerle modeli ayarlayarak değil destekliyor, ancak 'anlaması' ve modeline göre yeni belgeler için bir vektör, rapor önceki bir yığın eğitimden öğrenilen can.

Yani, eski olanlara yeni bir belge karşılaştırmak için yeni türetilmiş vektör kullanabilir veya yeni belgeler gelmeye devam ederse, eğitimli bir sınıflandırıcı vb

besleyin ve özellikle konuların dengesi/Belgelerinizdeki anlamlar zamanla değişiyor, muhtemelen bir noktada eski verilere dayanan bir modeli atmak ve daha büyük (veya daha yeni) verilerinize dayanarak yeni bir model oluşturmak istersiniz.

eski model ve yeni bir model vektörleri

(Not doğrudan karşılaştırılabilir değildir. Eğitim oturumları rastgelelik çok içerir ve boyutları anlamları/tek bir model olarak tarifi biraz keyfi bulunmaktadır. Bu göreceli Bazı yorumlayıcı güce sahip olan aynı modeldeki vektörlerin pozisyonları.

+0

açıklama için çok teşekkür ederim! Çok yardımcı olur. Doc2vec için herhangi bir örnek çalışma kodunuz var mı? –

+1

Gensim docs/notebooks dizini, orijinal Paragraf Vektörleri kağıdında bir duygu-analiz deneyi kısmen yeniden üreten bir demo doc2vec not defteri içerir. – gojomo