R'de tm paketi ile çalışıyorum ve her satırın farklı bir geri bildirim örneğiyle birlikte bir CSV dosyası müşteri geri bildirimi alıyorum. Bu geribildirimin tüm içeriğini bir corpus'a aktarmak istiyorum ancak her satırın corpus içinde farklı bir belge olmasını istiyorum, böylece bir DocTerms Matrixinde geri bildirimi karşılaştırabilirim. Veri kümemde 10.000'den fazla satır var. R CSV dosyasından metin madenciliği belgeleri (her belge için bir satır)
Başlangıçta aşağıdaki yaptım:fdbk_corpus <-Corpus(VectorSource(fdbk), readerControl = list(language="eng"), sep="\t")
Bu 1 belgesinde ve> 10.000 satır içeren bir külliyat oluşturur ve ben 1 sıranın her biri> 10.000 dokümanlar istiyoruz.
Sanırım bir klasörde 10,000'den fazla ayrı CSV veya TXT belgesi olabilir ve bundan bir corpus oluşturabilirim ... ama bence, her satırı ayrı bir belge olarak okuyarak daha basit bir yanıt var. .