7

ile Azure Blob veri, ancak edemiyor Azure blob dosyayı okumak içinOkuma Yukarıda HDF'ler için çalışır gibi</p> <pre><code>JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/directory"); </code></pre> <p>kod akışı kıvılcım yoluyla masmavi lekeler gelen verileri okuma sorun yaşıyorum Spark

https://blobstorage.blob.core.windows.net/containerid/folder1/ 

Üstü masmavi arayüzünde gösterilen yol, ancak bunun iştir, ben bir şey eksik değilim, ve bunu nasıl erişebilir. Ben Eventhub biliyorum

veri akışı için ideal seçimdir, ama benim şimdiki durum talepleri depolamayı kullanmak ziyade blob depolama veri okumak için

cevap

7

sıralar, yapılması gereken iki şey vardır. Öncelikle, Spark'a, temeldeki Hadoop yapılandırmasında hangi yerel dosya sistemini kullanacağını söylemeniz gerekir. Not (wasb:// öneki kullanılarak dosyanın üzerine çağrı

JavaSparkContext ct = new JavaSparkContext(); 
Configuration config = ct.hadoopConfiguration(); 
config.set("fs.azure", "org.apache.hadoop.fs.azure.NativeAzureFileSystem"); 
config.set("fs.azure.account.key.youraccount.blob.core.windows.net", "yourkey"); 

Şimdi: Bu da (orada Hadoop ailesi ile ilgili daha fazla kavanozları için belki çalışma zamanı gereksinimleri dikkate alın) Sınıfyolu kullanılabilir olmasını Hadoop-Azure JAR gerektiği anlamına gelmektedir [s]) isteğe bağlı güvenli bağlantı içindir:

ssc.textFileStream("wasb[s]://<BlobStorageContainerName>@<StorageAccountName>.blob.core.windows.net/<path>"); 

Bu blob depolamaya sorgu yapma konumdan gerekli izin ayarlarının olması gerekir söylemeye gerek yok.

+0

sayesinde denedim ama ben bir çalışma öğretici yok bir çalışma örneği – duck

+0

bir bağlantı noktasına mümkündür, bazı konu hala oluyor düşünüyorum. Hangi istisna meydana geliyor? –

+0

Çalıştı, bazı bağımlılık sorunu oldu. – duck

1

tamamlayıcı olarak çok yararlıdır Hadoop HDF'ler uyumlu Azure Blob depolama alanı hakkında bir öğretici olduğunu, https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage bakınız.

arada Azure üzerinde akış Spark için GitHub'dan bir resmi sample yoktur. Ne yazık ki, örnek Scala için yazılmıştır, ancak bence sizin için hala yararlıdır.

+2

Örnekte blob depolamadan okuma ile ilgili hiçbir şey göremiyorum. İlk bağlantıyı da okudum ve orada doğrudan bir “NativeAzureFileSystem” in Spark'a nasıl sağlanacağını açıklayan bir şey yok. Spark için temel denetim noktası dizini olarak blob depolama yöntemini kullanmanın somut bir örneğini oluşturursanız iyi olur. –