2016-03-24 12 views
0

Bir corpus'u eğitmek için Stanford POS Tagger kullanıyorum. "Prop" ayar dosyasını hazırladım ve verileri oluşturdum ve eğitime başladım. Bundan sonra, "Lambda Too Big" gibi mesajlar almaya başladım ve bu mesajlar eğitimin sonuna kadar devam ediyordu. Modeli denedim ve bana "Bellek Dışı İstisna" verdim. Modeli, 40 gb'den fazla RAM'e sahip olan ve 25gr'ı kullanmak için java yığın alanını artırmış olan bir HPC'de yoruldum ama aynı sorun hala devam ediyor.Stanford Training Lambda Çok Büyük

Kullandığım corpus'un yaklaşık 6000 cümlesi var, bir cümledeki minimum sözcük sayısı 3 ve maksimum 128 sözcük. Bir kelime, {p1} {p2} gibi aynı üç etiket içerebilir.

i eğitimlerine başladıklarında burada günlükleri:

Ayrıca
pcond initialized 
zlambda initialized 
ftildeArr initialized 
QNMinimizer called on double function of 337720 variables, using M = 10. 

Iter. 0: neg. log cond. likelihood = 821394.2976644086 [1 calls to valueAt] 
      An explanation of the output: 
Iter   The number of iterations 
evals   The number of function evaluations 
SCALING  <D> Diagonal scaling was used; <I> Scaled Identity 
LINESEARCH  [## M steplength] Minpack linesearch 
        1-Function value was too high 
        2-Value ok, gradient positive, positive curvature 
        3-Value ok, gradient negative, positive curvature 
        4-Value ok, gradient negative, negative curvature 
       [.. B] Backtracking 
VALUE   The current function value 
TIME   Total elapsed time 
|GNORM|  The current norm of the gradient 
{RELNORM}  The ratio of the current to initial gradient norms 
AVEIMPROVE  The average improvement/current value 
EVALSCORE  The last available eval score 

Iter ## evals ## <SCALING> [LINESEARCH] VALUE TIME |GNORM| {RELNORM} AVEIMPROVE 
EVALSCORE 

Iter 1 evals 1 <D> [lambda 5525 too big: 623.532051211901 
lambda 28341 too big: 623.5660256059567 
lambda 153849 too big: 623.5660256059567 

, burada pervane dosyada kullanılan ayarlar şunlardır:

## tagger training invoked at Thu Mar 03 01:31:10 AST 2016 with arguments: 
        model = arabic.New.tagger 
        arch = words(-2,2),order(1),prefix(6),suffix(6),unicodeshapes(1) 
      wordFunction = 
       trainFile = format=TSV,Train.txt 
     closedClassTags = 
closedClassTagThreshold = 40 
curWordMinFeatureThresh = 1 
        debug = false 
      debugPrefix = 
      tagSeparator =/
       encoding = UTF-8 
       iterations = 100 
        lang = arabic 
    learnClosedClassTags = false 
     minFeatureThresh = 3 
      openClassTags = 
rareWordMinFeatureThresh = 3 
      rareWordThresh = 5 
        search = qn 
        sgml = false 
      sigmaSquared = 0.0 
        regL1 = 0.75 
       tagInside = 
       tokenize = false 
     tokenizerFactory = edu.stanford.nlp.process.WhitespaceTokenizer 
     tokenizerOptions = 
       verbose = false 
      verboseResults = true 
    veryCommonWordThresh = 250 
       xmlInput = 
       outputFile = 
      outputFormat = slashTags 
    outputFormatOptions = 
       nthreads = 1 

herkes ben yanlış yapıyorum bana söyleyebilir ? Lambda boyutu iletiye ilgili olarak

cevap

0

, burada bir cevap bulabilirsiniz: ilgili olarak Lambda Size is Too Bog

Out Of Memory Exception için, etiketlemek istediğiniz dosyanın boyutunu spcifiy ediniz. Durum ne olursa olsun, tagger için büyük bir dosya aktarmaya çalıştığınızdan şüpheleniyorum. Bir test olarak 100 KB bir dosya geçirmeyi deneyin. Dosyanızın boyutu küçükse bir hata mesajı alacağınızı düşünmüyorum. Ancak, Out Of Memory Exception hata iletisi gösterilmeye devam ederse, o zaman java-nlp-user için bir soru gönderebilirsiniz: java-nlp-user. Herhangi bir soru göndermeden önce listeye başvurmanız gerektiğini lütfen unutmayın.

Umarım bu size yardımcı olur!

+0

Önerinizi deneyeceğim ve geri göndereceğim ... Teşekkürler. – ykh