Üç VM, 1x Master (tek başına), 2x işçiyle w/8G RAM, 2CPU üzerinde Spark 1.6.0 kullanıyorum.Jupyter & PySpark: Birden fazla not defteri nasıl çalıştırılır
aşağıda çekirdek konfigürasyonu kullanıyorum:
{
"display_name": "PySpark ",
"language": "python3",
"argv": [
"/usr/bin/python3",
"-m",
"IPython.kernel",
"-f",
"{connection_file}"
],
"env": {
"SPARK_HOME": "<mypath>/spark-1.6.0",
"PYTHONSTARTUP": "<mypath>/spark-1.6.0/python/pyspark/shell.py",
"PYSPARK_SUBMIT_ARGS": "--master spark://<mymaster>:7077 --conf spark.executor.memory=2G pyspark-shell --driver-class-path /opt/vertica/java/lib/vertica-jdbc.jar"
}
}
Şu anda, bu işleri. Pyspark kabuğundaki gibi kıvılcım içeriğini sc
& sqlContext
kullanabilirim.
Birden çok not defteri kullandığımda sorun geliyor: Benim kıvılcım master'ımda iki tane 'pyspark-shell' uygulaması görüyorum, bu da mantıklı, ancak sadece bir seferde çalışabiliyor. Fakat burada, 'koşmak' bir şeyi yürütmek anlamına gelmez, bir defterde hiçbir şey yapmadığım halde bile, bu 'koşma' olarak gösterilir. Bunu göz önünde bulundurarak, kaynaklarımı defterler arasında paylaşamıyorum, ki bu oldukça üzücü (ikinciyi çalıştırmak için şu anda ilk kabuğunu (= defter çekirdeği) öldürmem gerekiyor).
Nasıl yapılacağı hakkında herhangi bir fikriniz varsa, söyle! Ayrıca, çekirdeklerle çalışmanın yolunun 'en iyi uygulama' olup olmadığından emin değilim, zaten birlikte çalışmak için kıvılcım & jupyter ayarlamaya çalışırken sorun yaşadım.
Thx tüm
@AlbertoBonsanto? :) – eliasah
@eliasah bu konuda emin değilim. Bazı tavsiyeleri almak için hala harika: p – pltrdy
Kıvılcımı paylaşmayı mı düşünüyorsunuz? – eliasah