Dosyalar, bir Hadoop akış işinde dağıtılmış önbellek mekanizması kullanılarak düğümlere aktarıldığında, bir iş tamamlandıktan sonra sistem bu dosyaları siliyor mu? Eğer silindiyseler ki, tahmin ettiğim gibi, önbellek birden fazla iş için kalmanın bir yolu var mı? Bu Amazon'un Elastic Mapreduce ile aynı şekilde mi çalışıyor?Hadoop'ta dağıtılmış önbellek ömrü
6
A
cevap
5
Kaynak kodunda dolaşıyordum ve dosya sayısı TrackerDistributedCacheManager
tarafından başvuru sayısı sıfıra düştüğünde yaklaşık bir dakika kadar silinmiş görünüyor. TaskRunner
, bir dosyanın sonunda tüm dosyalarını açıkça serbest bırakır. Belki de bunu yapmamak için TaskRunner
'u düzenlemelisiniz ve önbelleği daha açık bir şekilde kendiniz kontrol etmelisiniz?
2
I cross posted this question at the AWS forum I hadoop fs -get
'u, işler arasında kalıcı bir şekilde aktarmak için iyi bir öneri aldım.
Bu büyük bir yardımdır. Bence keşfedeceğim düğümlerin üzerine dosya yüklemenin başka yolları da olabilir. Dağıtılmış önbellek aşina olduğum yöntemdi. Kod ref için teşekkürler, bu inanılmaz yararlı. –