Yerel sürücü kullanarak Azure HDInsight üzerinde Spark programını çalıştırma

Azure üzerinde çalışmak ve karşılaştırmak istediğim bir programım var. Bu programı zaten Amazon EC2 üzerinde test ettik ve donanımı olabildiğince yakın bir şekilde denemek ve yansıtmak istiyoruz. EC2'de erişmekte olduğumuz veriler bir SSD'ye konuldu. Verileri Azure'da bir bloğa sahibiz. Yerel sürücü kullanarak Azure HDInsight üzerinde Spark programını çalıştırma

biz HDInsight küme yapmak

, biz sadece kümeye blob verileri kopyalarım ve (sağlanan bizim küme bir SSD ile requisitioned?)

kaynak

2016-04-03 Dylan Lawrence

Evet bir SSD olacaktır. Verileri blob depolama alanından yerel HDFS'ye taşıyarak, hadoop komut satırından

'u kullanırsınız.

FYI-Önerilen mimari, HDFS'yi değil, Blob depolama/Data Lake'i kullanmaktır.

Referanslar: https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/

kaynak

2016-04-04 20:48:47

kadar hızlı SSD olarak Blob'u kullanıyor. Şu anda en iyi uygulamalarla ilgilenmiyoruz, bunun yerine EC2 verilere karşı benchmark yapıyoruz. –

Onları işaretlemedim, ancak yerel diskin daha hızlı olabileceğini düşünürdüm. HDFS –

içinde bir kez karşı işaretlemek kolay olmalıdır HDInsight küme üzerinde yerel HDFS için hedef adresi hdfs: // mycluster/ – maxiluk

Yerel sürücü kullanarak Azure HDInsight üzerinde Spark programını çalıştırma

cevap

İlgili konular