nltk eğitiminde açıklandığı gibi aşağıdaki yöntemi kullandığımda, bir Almanca belgedeki sözcükleri ayıklamaya çalışıyorum, sözcükleri dile özgü özel karakterlerle alamıyorum.Almanca'dan nltk kullanarak sözcükleri ayıklama
ptcr = nltk.corpus.PlaintextCorpusReader(Corpus, '.*');
words = nltk.Text(ptcr.words(DocumentName))
Belgedeki sözcüklerin listesini almak için ne yapmalıyım? "Ä" "ü" olmadığı halde, sınırlayıcı olarak kabul edilir Bu örnekte
In [231]: nltk.tokenize.WordPunctTokenizer().tokenize(u"Veränderungen über einen Walzer")
Out[231]: [u'Ver\xc3', u'\xa4', u'nderungen', u'\xc3\xbcber', u'einen', u'Walzer']
: gibi
alman ifade Veränderungen über einen Walzer
için nltk.tokenize.WordPunctTokenizer()
ile bir örnek görünüyor.
? Giriş dosyalarınızın kodlamasını biliyor musunuz? – shenshei
Ben örneğin, anormal 'ä' ayırıcı olarak kabul edilir Alman mektup ayrılan bir kelime listesini almak. kodlama 'utf-8'dir. PlaintextCorpusReader metni tokenize için unicode işlemek WordPunctTokenizer() kullanması nedeniyle – red
çok garip. . Bana nltk.tokenize.WordPunctTokenizer() tokenize (u "Eğer arabası metin") kullanılarak hata bir EXEMPLE – shenshei