programında ayarlayın. Bağımsız bir komut dosyası yazmak için, bir Spark içeriğini doğrudan Python'dan başlatmak ve yapılandırmak istiyorum. PySpark senaryosunu kullanma Birlikte sürücü bellek boyutunu ayarlayabilirsiniz:Programın bellek boyutunu PySpark
$ /opt/spark-1.6.1/bin/pyspark
... INFO MemoryStore: MemoryStore started with capacity 511.5 MB ...
$ /opt/spark-1.6.1/bin/pyspark --conf spark.driver.memory=10g
... INFO MemoryStore: MemoryStore started with capacity 7.0 GB ...
Ama Python modülünden bağlamı başlatırken, sürücü bellek boyutu ayarlanamaz:
$ export SPARK_HOME=/opt/spark-1.6.1
$ export PYTHONPATH=$PYTHONPATH:$SPARK_HOME/python
$ python
>>> from pyspark import SparkConf, SparkContext
>>> sc = SparkContext(conf=SparkConf().set('spark.driver.memory', '10g'))
... INFO MemoryStore: MemoryStore started with capacity 511.5 MB ...
bildiğim tek çözüm sparks-default.conf
'da spark.driver.memory
'u ayarlamaktır, bu da tatmin edici değildir. this post'da açıklandığı gibi, JVM başlatıldıktan sonra Java/Scala'nın sürücünün bellek boyutunu değiştirememesi mantıklıdır. Bir şekilde Python'dan pyspark
modülünü almadan önce veya aktarırken dinamik olarak bir şekilde yapılandırmanın bir yolu var mı?
Gerçek kodla nasıl çalıştığını açıkladığınız için çok teşekkürler! Diğer cevabı daha önce çalıştığı ve gönderildiği gibi kabul ettim. – udscbt
@udscbt Endişelenme yok. Sonunda anladığımda çok heyecanlandım ve kendi sorularımı/cevabımı (insanların bilmesi gerekenler) yayınlayacaktım. Bulduğum diğer tüm sorular, "gönder-atla-hafızayı gönder-gönder" yazıyordu, ama kıvılcım göndermiyordum (bu yüzden düşündüm). – FGreg