Modelimi 50 mb boyutundaki verilerle eğitmeye çalışıyorum. Sadece algoritma için boyutun boyutunu belirlemek için bir kural/algoritma olup olmadığını merak ediyordum.50 mb veri için word2vec algoritması için vektörlerin boyutu ne olmalıdır
2
A
cevap
0
Yaklaşık 500.000 cümle veya 5 milyon jeton olarak bir 50mb metin dosyası varsayalım. Anlamlı bir gömülmeyi eğitmek için çok küçük bir yol var, ancak burada başvurabileceğiniz ampirik veriler (6Billion tokenleri üzerinde eğitilmiş).