Bir düğümün Ana düğüm ve diğerinin Veri düğümü olduğu bir dolaşım kümem var mı? Köle düğümü, işleri paralel hale getirmek için yeterli çekirdek bulunduğundan emin olmak için 8 çekirdekli bir makinedir
MR programımın girdisi olarak birden çok büyük dosyam var (yaklaşık 500MB). Bu dosyaları eşit büyüklükteki bölümlere bölüyorum (bölüyorum). eşleştiricisindeki Anahtar = (dosya adı, partition_number) v
Bir dosyayı Spark kullanarak HDFS'ye yazarken, bu bölümleme kullanılmadığında oldukça hızlıdır. Bunun yerine, dosyayı yazmak için bölümleme kullandığımda, yazma gecikmesi faktörü ~ 24 artar. Aynı dosy