2016-06-29 61 views
5

pyspark 1.6.0 kullanıyorum.Spark Streaming - ikili veri dosyasını işliyor

AWS S3 grubundan ikili veri dosyasını okumak için pyspark kodum var. Diğer Kıvılcım/Python kodları, verideki bitleri int, string, boolean ve vs'ye dönüştürmek için ayrıştırır. Her bir ikili dosyanın bir veri kaydı vardır. sc.binaryFiles ("S3N: // .......")

Bu harika çalışıyor bir bir başlığın (dosya adı ve verir PYSPARK yılında

Ben kullanarak ikili dosyasını okumak veri) ama bir dize olarak ikili dosyayı okumak için eşdeğer bir PYSPARK akış API'sini bulmaya çalışıyorum (umarım dosya ismi de olabilir). binaryRecordsStream (dizin, RecordLength)

ama bu çalışma alamadım ...

kimse PYSPARK akış ikili veri dosyasını okumak nasıl bazı ışıklar paylaşabilir:

Denedim?

cevap