Büyük Veri projesi için, tekrarlanan iş yükleri için bellek içi hesaplamalar gibi bazı güzel özelliklere sahip olan spark kullanmayı planlıyorum. Yerel dosyalarda veya HDFS'nin üstünde çalışabilir. Ancak, resmi belgelerde gzipli dosyaların nasıl işleneceğine dair herhangi bir ipucu bulamıyorum. Pratikte, sıkıştırılmamış dosyalar yerine .gz dosyalarını işlemek için oldukça etkili olabilir.gzip desteği Spark
Gzipli dosyaların okunmasını manuel olarak gerçekleştirmenin bir yolu var mı, yoksa bir .gz dosyası okunurken otomatik olarak yapılmakta olan unzipping var mı? Gönderen
sadece 1 bölümlü bir RDD (0.9.0'dan itibaren). Bunun nedeni, sıkıştırılmış dosyaların [ayrıştırılamaz] olmasıdır (http://mail-archives.apache.org/mod_mbox/spark-user/201310.mbox/%[email protected] com% 3E). RDD'yi bir şekilde yeniden bölümlemezseniz, bu RDD'deki herhangi bir işlem tek bir çekirdekle sınırlı olacaktır. –
Logs = sc.textFile ("logs/*. Bz2") 'yi denediğimde,' logs.count() 'adında bir hata alıyorum. Herhangi bir fikir neden? – zbinsd
@zbinsd sonunda sonunda anladınız mı? Tar.gz dosyalarını yüklerken şu hatayı alıyorum: JsonParseException: Geçersiz karakter ((CTRL-CHAR, code 0)): jetonlar – Leon