yalancı kod şu şekilde görünecektir:
create words, a list of words, by splitting the input by whitespace
for every word, strip out whitespace and punctuation on the left and the right
piton kodu şöyle bir şey olurdu:
words = input.split()
words = [word.strip(PUNCTUATION) for word in words]
nerede
PUNCTUATION = ",. \n\t\\\"'][#*:"
veya kaldırmak istediğiniz diğer karakterler.
Java'nın String sınıfında eşdeğer işlevleri olduğunu düşünüyorum: String .split(). Eğer bağlantıda verilen metin üzerinde bu kodu çalışan
Çıktı: Temelde
>>> print words[:100]
['Project', "Gutenberg's", 'Manual', 'of', 'Surgery', 'by', 'Alexis',
'Thomson', 'and', 'Alexander', 'Miles', 'This', 'eBook', 'is', 'for',
'the', 'use', 'of', 'anyone', 'anywhere', 'at', 'no', 'cost', 'and',
'with', 'almost', 'no', 'restrictions', 'whatsoever', 'You', 'may',
'copy', 'it', 'give', 'it', 'away', 'or', 're-use', 'it', 'under',
... etc etc.
Regexp'i sayılar, alt çizgi içermeyen ve bir alıntıyla başlayan sözcüklere sahip olmamak için biraz değiştirmem gerekiyordu, aksi halde, iyi! –
\ w gibi kaçmak zorunda kaldı: 'Pattern.compile ("[\\ w'] +"); – ScrollerBlaster
@ScrollerBlaster Bu doğru. Tamir edeceğim, teşekkürler! – Tomalak