Google Compute Engine'de bir Google Cloud Storage çıktı almak için çalışan bir Apache Spark komut dosyası var. Cloud Storage klasöründe 300'den fazla part-00XXX dosyam var. Onları birleştirmek istiyorum.Google Cloud Storage'de 32'den fazla dosya birleştirme
Denedim:
[email protected]:~$ gsutil compose gs://mybucket/data/* gs://mybucket/myfile.csv
Ama bu hata var: bütün tezler parça dosyaları birleştirmek için bir çözümün
CommandException: "compose" called with too many component objects. Limit is 32.
Herhangi bir fikir?
Dosyalarınızı, içinde 32 dosya bulunan parçalar halinde bölümlere ayırın. Her birini ayrı ayrı birleştirin. N dosyaları ile başladığınız göz önüne alındığında, şimdi N/32 dosyalarınız olacaktır. tekrar et. Yeterli belleğiniz varsa, bunu alt komut satırlarıyla yapabilir ve her seferinde diske okuma/yazma gerekliliği yoktur. –