2016-04-07 23 views
0

Benim için çalışan bu kodum var (Jockers'ın Edebiyat Öğrencileri için Metin Analizi). Bununla birlikte, yapabilmem gereken şey bunu otomatik hale getirmektir: Otuz bireysel metin dosyasına kadar "ProcessingSection" işlemini gerçekleştirmem gerekiyor. Bunu nasıl yapabilirim? Her bir scan("*.txt") için "text.v" nin otuz oluşmasını içeren bir tablo veya veri çerçevem ​​var mı?Tarama kullanarak birden fazla metin dosyası işleme

Herhangi bir yardım çok takdir edilmektedir!

# Chapter 5 Start up code 

setwd("D:/work/cpd/R/Projects/5/") 

text.v <- scan("pupil-14.txt", what="character", sep="\n") 
length(text.v) 


#ProcessingSection 
text.lower.v <- tolower(text.v) 
mars.words.l <- strsplit(text.lower.v, "\\W") 
mars.word.v <- unlist(mars.words.l) 

#remove blanks 
not.blanks.v <- which(mars.word.v!="") 
not.blanks.v 

#create a new vector to store the individual words 
mars.word.v <- mars.word.v[not.blanks.v] 
mars.word.v 

cevap

0

Bu sizin örnek reproducible olmadığı için yardım etmek zor. Size itiraf

mars.word.v sonucu memnunsanız, tek argüman, taramanın sonucunu kabul edecek bir fonksiyonun içine bu kod bölümünü açabilirsiniz.

lf <- list.files(pattern=".txt") 
lapply(lf, function(path) processing_section(scan(path, what="character", sep="\n"))) 

bu İstediğin: Tüm .txt dosya geçerli çalışma dizini ise

processing_section <- function(x){ 
    unlist(strsplit(tolower(x), "\\W")) 
} 

Sonra, bunları, listelemek ve bu işlevi uygulamak gerekir?

+0

Teşekkürler, Vincent. Bir fonksiyonun text.v türlerinin bir listesini içeren bir tablo veya dataframe (üzgünüm - acemi) döndürmesi daha kolay olur mu? (yani, birden çok .txt dosyasının taranmasından dönen vektörlerin bir listesi ve daha sonra, her bir "text.v" ye bu listede bulunan bir altyazı veya vektörlerin veri çerçevesi kullanılarak erişirim? –

+0

Ne yapmak istediğinize bağlı, ancak anladığınızdan emin değilsiniz. –

+0

Bunu gerçekten takdir ediyorum, Vincent, bir kaç metin dosyasında okuyabiliyorum - öğrenciler öyküleri - ve her biri tarama tarafından okunan her bir metin() Her bir metin dosyası bir vektörde saklanır ve vektörlerin bir listesi/tablosu Metin dosyaları içeriğini içeren bir tablo veya vektörler –