Bir corpus'u eğitmek için Stanford POS Tagger kullanıyorum. "Prop" ayar dosyasını hazırladım ve verileri oluşturdum ve eğitime başladım. Bundan sonra, "Lambda Too Big" gibi mesajlar almaya başladım ve bu mesajlar eğitimin sonuna kadar devam ediyordu. Modeli denedim ve bana "Bellek Dışı İstisna" verdim. Modeli, 40 gb'den fazla RAM'e sahip olan ve 25gr'ı kullanmak için java yığın alanını artırmış olan bir HPC'de yoruldum ama aynı sorun hala devam ediyor.Stanford Training Lambda Çok Büyük
Kullandığım corpus'un yaklaşık 6000 cümlesi var, bir cümledeki minimum sözcük sayısı 3 ve maksimum 128 sözcük. Bir kelime, {p1} {p2} gibi aynı üç etiket içerebilir.
i eğitimlerine başladıklarında burada günlükleri:
Ayrıcapcond initialized
zlambda initialized
ftildeArr initialized
QNMinimizer called on double function of 337720 variables, using M = 10.
Iter. 0: neg. log cond. likelihood = 821394.2976644086 [1 calls to valueAt]
An explanation of the output:
Iter The number of iterations
evals The number of function evaluations
SCALING <D> Diagonal scaling was used; <I> Scaled Identity
LINESEARCH [## M steplength] Minpack linesearch
1-Function value was too high
2-Value ok, gradient positive, positive curvature
3-Value ok, gradient negative, positive curvature
4-Value ok, gradient negative, negative curvature
[.. B] Backtracking
VALUE The current function value
TIME Total elapsed time
|GNORM| The current norm of the gradient
{RELNORM} The ratio of the current to initial gradient norms
AVEIMPROVE The average improvement/current value
EVALSCORE The last available eval score
Iter ## evals ## <SCALING> [LINESEARCH] VALUE TIME |GNORM| {RELNORM} AVEIMPROVE
EVALSCORE
Iter 1 evals 1 <D> [lambda 5525 too big: 623.532051211901
lambda 28341 too big: 623.5660256059567
lambda 153849 too big: 623.5660256059567
, burada pervane dosyada kullanılan ayarlar şunlardır:
## tagger training invoked at Thu Mar 03 01:31:10 AST 2016 with arguments:
model = arabic.New.tagger
arch = words(-2,2),order(1),prefix(6),suffix(6),unicodeshapes(1)
wordFunction =
trainFile = format=TSV,Train.txt
closedClassTags =
closedClassTagThreshold = 40
curWordMinFeatureThresh = 1
debug = false
debugPrefix =
tagSeparator =/
encoding = UTF-8
iterations = 100
lang = arabic
learnClosedClassTags = false
minFeatureThresh = 3
openClassTags =
rareWordMinFeatureThresh = 3
rareWordThresh = 5
search = qn
sgml = false
sigmaSquared = 0.0
regL1 = 0.75
tagInside =
tokenize = false
tokenizerFactory = edu.stanford.nlp.process.WhitespaceTokenizer
tokenizerOptions =
verbose = false
verboseResults = true
veryCommonWordThresh = 250
xmlInput =
outputFile =
outputFormat = slashTags
outputFormatOptions =
nthreads = 1
herkes ben yanlış yapıyorum bana söyleyebilir ? Lambda boyutu iletiye ilgili olarak
Önerinizi deneyeceğim ve geri göndereceğim ... Teşekkürler. – ykh