2017-01-06 34 views
6

S3'te bir Parçacıma dönüştürmek istediğim (1 Mb) CSV/JSON dosyaları kümesi alıyorum. Bir Lambda fonksiyonu kullanarak bu dosyaları kolayca Parke'ye dönüştürebilmeyi bekliyordum.AWS Lambda işlevinde bir parke dosyası oluşturma

Google'a baktıktan sonra, bir çeşit Hadoop olmadan buna bir çözüm bulamadım.

Bu bir dosya dönüştürme olduğundan, bunun için kolay bir çözüm olmadığını düşünmüyorum. Birisi bu dönüşümü yapmak için bazı Java/Scala örnek koduna sahip?

+0

Parke metinsel, insan tarafından okunabilir bir formatta olmadığı için neden işe yaramadığını anlayabiliyorum. Teorik olarak, bunun için AWS EMR ve Spark'i kullanabilirsiniz, fakat aynı amaca sahibim ve şemada sorun yaşıyorum çünkü tüm satırlar/dosyalar tüm sütunlarda bulunan tüm değerlere sahip olmayabilir ve Spark bunları okuyabilir farklı şekiller. Daha sonra Parke'ye yazı yazmak farklı şemalarda yazacaktı ve daha sonra şemaları eşleşmediği için birden fazla Parke dosyasında okuyamadınız. –

+0

İkili bir dosya formatı olduğu gerçeğini anlayabiliyorum, ancak Hadoop'a bağlı olması gerekiyor mu? Sonuç olarak, gereksinimlerimizi değiştirdik ve Parket artık gerekmiyor (ilgisiz nedenlerden dolayı). Örneğin, bağımsız bir kıvılcım uygulamasıyla (100 MB JAR, normal 50 MB AWS sınırını geçerek) gidebilirdik. – user1356713

+0

Tamam. Onun yerine ne kullandın? –

cevap

0

AWS Lambda kullanarak parke formatına dönüştürmenin bir yolu olduğunu sanmıyorum. Ancak, kolay yollardan biri, S3'ten almak için bir Glue Crawler kullanmak ve daha sonra bir ETL Job'a ihtiyacınız olan her yere parke ve mağazaya dönüştürmektir.