2016-08-30 55 views
5

Soru basit. CBOW & atlama-gramından hangisi büyük bir veri kümesi için daha iyi çalışır? (Ve küçük veri kümesi için cevap izler.)word2vec: KÜÇÜK & atla-gram performans wrt eğitim veri kümesi boyutu

Ben

atla gram [Link], Mikolov kendisi tarafından, beri karıştı: eğitim verilerinin ait küçük bir miktarı ile iyi çalışır, iyi bile nadir temsil kelimeler veya ifadeler.

CBOW: Daha hızlı birkaç kez

[Link] CBOW bir sürü üzerinde düzgünleştirir, Google TensorFlow göre, sık kelimelerin

için atlama-gram, biraz daha iyi doğruluk daha yetiştirmek ancak Dağıtım bilgileri (tüm içeriği tek gözlem olarak ele alarak). Çoğunlukla, bu küçük veri kümeleri için yararlı bir şey olduğu ortaya çıkıyor.

Ancak, atlama-gram her bir içerik hedef çiftini yeni bir gözlem olarak ele alır ve bu, daha büyük veri kümeleri olduğunda daha iyi olma eğilimindedir. Bu öğreticinin geri kalanında atlama-gram modeline odaklanacağız.

İşte ilk düşünceyi [Link] destekleyen bir Quora yazılan ve daha sonra yukarıda bahsedilen güvenilir kaynaklarından elde görünmek --both ikinci düşünce [Link] anlaşılacağı diğer Quora sonrası yoktur.

Veya Mikolov söylediğiniz gibi öyle:

Genel olarak, en iyi uygulama Birkaç deneme denemek ve farklı uygulamalar, farklı gereksinimlere sahip oldukları, sizin için en iyi olanı görmektir.

Fakat kesinlikle bu konuda ampirik veya analitik bir karar veya son söz var mı?

cevap

3

Mikolov, CBOW'un daha büyük veri kümesi ve daha küçük veri kümesi için SG için iyi çalıştığını gösterdiğinde, veri miktarının dikkate alındığını varsayalım. CBOW bir hedef kelimeyi ve pek çok bağlam kelimesini ele aldığından, SG'de kullanılan veri kümeleriyle karşılaştırıldığında hedef vektörler için daha büyük bir veri kümesine ihtiyaç duymaktadır. Tam tersi olarak, SG'de, tek bağlam kelimesi için birçok hedef kelimeden dolayı, daha küçük veri kümelerine ihtiyaç vardır.

Google Tensor Flow, kullanılan veri kümesi miktarından ziyade kaliteli vektörler oluşturmak için veri kümesindeki kelimelerin dağıtımı hakkında konuşuyor. CBOW modeli bir cümledeki tüm hedef kelimeler için aynı bağlam kelimelerini daha fazla ele aldığından, daha büyük (dağıtılmış) bir veri kümesine ihtiyaç vardır ve bunun tersi de SG için geçerlidir. ortak olarak

, her ikisi de aynı anlama: uzun cümleler ve numunelerin düşük sayıda kısa cümle, ancak örneklerin çok sayıda (daha büyük veri kümesi)

  • SG modeli = veri kümesi ile

    • CBOW modeli = veri kümesi (daha küçük veri kümesi)