ile büyük boyutlu küçük dosyaların işlenmesi Hadoop örnek programı WordCount kullanarak büyük boyutlu küçük dosya/web sayfalarını (cca. 2-3 kB) işlemek için kullanıyorum. Bu, hadoop dosyaları için en uygun dosya boyutundan uzak olduğu için, program çok yavaş. Sanırım işin ayarlanması ve yırtılması işi işin kendisinden çok daha büyük olduğu için. Bu gibi küçük dosyalar, dosya adlarına yönelik ad boşluklarının tüketilmesine de neden olur. Hadoop
Ben bu durumda ben HDF'ler arşiv (HAR) kullanması gerektiğini okumak, ama bu arşivlerinden okumak için bu programı wordcount nasıl değiştirileceğini emin değilim. Program değişiklik yapmadan çalışmaya devam edebilir mi yoksa bazı değişiklikler gerekli mi?Arşivlerde çok fazla dosya yüklesem bile, performansın artması durumunda soru devam eder. Birden fazla dosya toplasam bile, bir arşiv içindeki bu dosyaların bir mapper tarafından işlenmeyeceğini, ancak benim durumumda (sanırım) performansın artmayacağını birçok kişi tarafından okunduğumu okudum.
bu soru çok basittir, ben Hadoop için Newbie ve onunla çok az deneyime sahip olduğunu anlamak yeterli.
Sanırım yapabilirim, ancak sayfanın URL'sini/adresini ilk satırına koyduğum için, yeni bir sayfanın mı yoksa başka bir sayfaya düzenli olarak bağlandığının farkına varmak biraz zor olacaktır. – Sasa