Amazon'un Elastic MapReduce üzerinde python kodunu çalıştırmak için mrjob kullanarak EMR görüntüsünün numpy ve scipy'lerini yükseltmenin bir yolunu başarıyla buldum. konsoldan KoşuAmazon Elastic ile Numpy ve Scipy MapReduce
aşağıdaki komutlar:
tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz
gzip py_bundle.tar
python my_mapper.py -r emr --python-archive py_bundle.tar.gz --bootstrap-python-package numpy-1.6.1.tar.gz --bootstrap-python-package scipy-0.9.0.tar.gz > output.txt
Bu başarıyla son numpy bot ve scipy görüntü içine ve mükemmel çalışıyor. Benim sorum hız meselesi. Bu kendini küçük bir örnekte kurmak için 21 dakika sürer.
Numpy ve scipy yükseltme işlemlerini hızlandıracak herhangi bir fikri olan var mı?
Sorununuz, yavaş olan küçük örnek olmasıdır. Daha büyük Amazon örneklerine geçmediğiniz sürece gerçek bir hızlanma görmeyeceksiniz. Bu, genellikle EC2'nin örneklerin tümünü hızlandırmasını gerektiren ~ 5-6 dakikalık ve üstüdür? – ely
Orijinal sıkma ile iletişimin uzun zaman aldığını kabul ediyorum. Mrjob topluluğundaki bir kişi bu yüklemeyi bir çalışan örneği için gerçekleştirmeyi önerdi, ardından çalışan örneğine oturum açmak için ssh'i kullanarak tamamlanan yükleme dizinini indirin. Sonra tamamladığım yükleme dizinini dosyalarıma zip dosyası olarak aktarıyorum. Python, hadoop'un yüklü sürümleri yerine yerel NumPy ve SciPy'yi kullanmayı seçer. – jtman