Pandalar ile bir veri kümesi (200mb, ~ 3mil satır) analiz etmeye çalışıyorum, ancak bu veri kümesi rasgele kullanıcılar tarafından doldurulmuş bir sütun içerir. tüm karakterlere izin verilir. Bu, sınırlayıcı karakterin (\ t) ayrıca son sütunda da bulunduğu sorusunu oluşturur. GVIM'de tüm '\ t'leri': 'ile aramayı ve değiştirmeyi denedim, ancak bu aynı zamanda gerçek sınırlayıcıları da (GVIM'de gösterilmiyor) değiştiriyor. Büyük bir veri kümesindeki belirli bir sütundaki karakterin özel olarak nasıl değiştirileceğiyle ilgili ipuçları var mı?Verilerin büyük bir kısmı, bir sütunda sınırlayıcı karakteri değiştirmeye çalışıyor ancak tüm sınırlayıcı karakterleri değil
E.g. Ben dosya sütunları için sınırlayıcı olarak sekme (\ t) kullanır. o 8 alanları bekler fakat \ ve CA arasında sekmesine 9 alır çünkü
137179101 genericname 431 499 19568 0 26 Apr 2010 01:45:05 GMT Oakland,\ CA
benim Pandalar dizüstü messes: Ancak, aşağıdaki bilgi içeren bir satır var 8. sütun, kendi sekmelerini doldurmanın gerçekten mümkün olduğu tek yerdir. Peki SADECE sekizinci sütundaki "\ t" yi nasıl değiştiririm?
Şimdiden teşekkürler!
Python komut dosyası ile çözebileceğimi düşündüğüm sıfır deneyimime sahip olduğumu unutmayın, ancak Python'u öğrenmekten daha hızlı bir yaklaşım iyi olurdu.
Hmmm, sana 'tarafından csv' ön işleme gerek bir satırdaki "sınırlayıcılar" sayısını yeni csv'ye ve sonra "read_csv" işlevini kullanın. – jezrael
Bunu nasıl yaparım? Pandas – user3394131