ile mücadele ediyor Büyük bir csv'yi (18GB) belleğe yüklüyorum ve R ve Python arasındaki çok büyük farkları farkettim. Bu bir AWS ec2 r4.8xlarge which has 244 Gb of memory üzerindedir. Açıkçası bu aşırı bir örnektir, fakat prensip, gerçek makinelerde de küçük dosyalar için geçerlidir.Python ve R'ye çok büyük CSV veri kümesi yükleme Pandalar,
Dosyam, pd.read_csv
kullanırken yaklaşık 17 dakika bellek yüklendi ve yüklendi. Aslında o kadar çok ki ben onunla hiçbir şey yapamam. Buna karşılık, data.table
paketinden R'nin fread()
'u ~ 7 dakika ve sadece ~ 55Gb bellek aldı.
Pandalar nesnesi neden data.table nesnesinden çok daha fazla bellek alıyor? Ayrıca, temel olarak diskteki metin dosyasından neredeyse 10 kat daha büyük pandalar nesnesi neden? .csv, verileri ilk sırada depolamak için özellikle etkili bir yoldur.
Benzer şekilde [https://stackoverflow.com/questions/17444679/reading-a-huge-csv-file](https://stackoverflow.com/questions/17444679/reading-a-huge-csv-file) – RobertMc
@RobertMc pandalar açısından değil – roganjosh
Yeni, dev ve henüz CRAN'da değil, 1.10.5 'fread' kullanıyor musunuz? Ayrıca [paratext] (https://github.com/wiseio/paratext) adresini de deneyin. –