olarak REST hizmetinden nasıl tüketirim? Web servisinden bazı JSON verilerini okumanız gerekirse, SPARK SQL kodundaki verileri analiz için sorgulamak için REST arabirimleri sağlar. Blob deposunda depolanmış bir JSON'u okuyabiliyorum ve kullanabiliyorum.Spark SQL: Json verilerini DataFrame
Verileri bir REST hizmetinden okumak ve başka bir DataFrame
gibi kullanmak için en iyi yolun ne olduğunu merak ediyordum.
BTW Bu yardımcı olursa SPARK 1.6 of Linux cluster on HD insight
kullanıyorum. Ayrıca, birisi SPARK ortamına hala çok yeni olduğum için herhangi bir kod parçacığını aynı şekilde paylaşabiliyorsa memnun olur. Spark 1.6 On
indirdikten sonra (düğümlerine dağıtmak) parallelize istediğiniz tek bir JSON damla o olduğu gibi bir dataframe oluşturabilir veya birçok olduğu doğrudan düğümlerde indirmeyi tercih edebileceğiniz farklı JSON dizeleri? Tek bir blob ise, http://spark.apache.org/docs/latest/sql-programming-guide.html#json-datasets adresinde belirtildiği gibi biçimlendirilmiştir. Her satır ayrı, bağımsız bir geçerli JSON içermelidir. object " – Ashish
@Ashish: Bunlar aslında webservice tarafından 8 ile 10 arasında bir yerde bulunan ve gerçekten büyük boyutlu olmayan çok sayıda dosyadır. Analizlerim için çoğunlukla HDFS'de depolanan verilere bir bağlam olarak kullanılır. Bağlantıya baktım, ama bütün örnekler yerel dosyaları arıyor, onu bir şekilde okumak için bir yol var mı? Val yolu = "http: //www.examples/src/main/resources? Type = people "' – Kiran
Spark, rasgele bir json'u veri çerçevesine ayrıştıramaz, çünkü json hiyerarşik bir yapıdır ve veri ağı düzdür. Eğer jsonunuz kıvılcım tarafından yaratılmadıysa, "Her satır ayrı, bağımsız bir JSON nesnesi içermelidir" ve bu nedenle özel kodunuzu kullanarak ayrıştırılması ve daha sonra veri kümesine veri toplama işlemine aktarılması gerekir. sınıf nesneleri veya kıvılcım sql Satırları. scala'da ayrıştırma yollarından biri http://stackoverflow.com/questions/37003083/spark-parquet-nested-value-flatten/37005148#37005148 – Ashish