Ben 250k üzerinde kayıtları ile genom verileri içeren bir 300 GB metin dosyası var. Kötü veriye sahip bazı kayıtlar ve genomik programımız olan 'Popoolution', yıldız ile "kötü" kayıtları açıklamamıza izin veriyor. Sorunumuz, kötü kayıtları açıklayabilmemiz için verileri yükleyecek bir metin editörü bulamıyoruz. Baska öneri? Hem Windows hem de Linux kutularımız var.300 GB metin dosyası nasıl düzenlenir (genomik veriler)?
GÜNCELLEME: Daha fazla bilgi
bize biz sonra dışarı yorum yapabilirsiniz satır numarasını vererek "kötü" bir rekor ulaştığında programı Popoolution (https://code.google.com/p/popoolation/) çöker. Özellikle, Perl'den "F # €% & İskele" yazan bir mesaj alırız. Elkitabı, kötü çizgiyi yorumlamak için yıldız işaretini kullanabileceğimizi gösteriyor. Ne yazık ki, ... Bu işlemi
Bir daha düşünceyi defalarca tekrarlamak zorunda kalacak ... bize bir kerede tüm metin dosyasını açmadan hattına yıldız işareti eklemek için izin verecek bir yaklaşım var mı. Süreci bilinmeyen bir sayıda tekrarlamak zorunda kalacağımız için bu çok yararlı olabilir.
Neden bir metin düzenleyicisinde açmanız gerekiyor? Şüphesiz, bütün 250 bin kayıtları el ile yorumlamayacak mısın? Awk veya sed kullanarak bak. @Joshua belirtiyor gibi –
Bu kötü kayıtlar için bir desen bulun ve awk veya sed ile sorunu çözmek. Manuel olarak kontrol edilecek 250k kayıtlar bir ömür anlamına gelir. – fedorqui
Dosyayı Notepad ++ 'da yüklemeye çalıştık ve yüklemek 24 saat sürdü ve temelde kullanıldı. –