Okul için büyük veri ataması üzerinde çalışıyorum ve kod çalışmam için kelimeleri bir metin dosyasından filtrelemem gerekiyor.Java filtre kelimeleri nadir rastlanmayan alanlarda bile dosya dışı çıktı
Elbette dosyayı okuyun ve replaceAll ("[^ a-zA-Z0-9]", "") ile ihtiyacım olmayan şeyleri filtreleyim;
Ancak bu bir sorun getirir. Ben boşluklar göre filtreleme ve bazı özel durumlar gibi olduğundan:
wobbewy!'--'Wobbewy,'
alıyorum gibi kelimeler:
wobbewywobbewy
gibi alanlarda kelimeleri filtrelemek ve ayrıca yapmadan bu özel durumları filtrelemek için yine de var mı If ifadeleri muazzam miktarda? (Birden fazla boşluk) benim
Neden kullanmıyorsunuz ("[^ a-zA-Z0-9]", ""), yani! '-' bir boşluk ile değiştirilecek ve boşluk karakterine göre bölünecek. Alternatif olarak: Herhangi bir şeyi değiştirmeyin ve sözcükleri regex kullanarak, örneğin \ w + desenini kullanarak aratmayın. – kevcodez
Tabii ki, sözcükleri ayırmak için boşluk kullanmayan dillerle uğraşırken, tüm bu sorun daha da kötüleşiyor. Bazı dillerde (Thai, IIRC?) Basitçe bir metin bloğunu sözcüklere ayırmak, bir sözlük ve yinelemeli bir geri izleme algoritması gerektirir. –