Twitter duygu analizim için temiz metinler oluşturmak için aşağıdaki kodu kullanıyorum. Bu analize "bok", "hasta", vb. Dahil etmek istemediğim bazı kelimeleri çıkarmak için başka bir satır eklemek istiyorum. Birisi nasıl yapılacağını tavsiye edebilir mi? R son "tm" paketini kullanarakR - Duygu Analizi - Bazı kelimeler nasıl kaldırılır
tweets <- searchTwitter("iPhone", n=1500, lang="en")
txt <- sapply(tweets, function(x) x$getText())
txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt)
txt <- gsub("@\\w+", "", txt)
txt <- gsub("[[:punct:]]", "", txt)
txt <- gsub("[[:digit:]]", "", txt)
txt <- gsub("http\\w+", "", txt)
txt <- gsub("[ \t]{2,}", "", txt)
txt <- gsub("^\\s+|\\s+$", "", txt)
Ryo .. Sanırım blogu okuyabilirsiniz: https://mkmanu.wordpress.com/2014/08/05/sentiment-analysis-on-twitter-data-text-analytics-tutorial/ –
gsub'ı [Bu cevabın 'gsub ile çoklu argümanları değiştir'] bölümüne bakın (http://stackoverflow.com/a/15254254/3560695). Bu da kodunuzu basitleştirir. – Therkel