2014-06-13 18 views
6

Pandalar ve scikit kullanarak bir spam sınıflandırıcı geliştirdim, bu programa, todoop tabanlı sistemimize entegrasyon için hazır olduğu noktaya kadar. Bu amaçla, sınıflandırıcımı dekapajtan daha yaygın bir biçime aktarmam gerekiyor.Bir Scikit Verme Hadoop Platformunda Kullanmak için Rastgele Orman Öğrenin

Öngörülü Model İşaretleme Dili (PMML) tercih edilen dışa aktarma biçimimdir. Halihazırda kullandığımız Cascading ile son derece iyi oynar. Ancak, şaşırtıcı bir şekilde scikit-öğrenen modelleri PMML'ye aktaran herhangi bir python kütüphanesi bulamıyorum.

Bu kullanım durumu konusunda tecrübesi olan var mı? PMIC'ye scikit-learn ve hadoop arasında birlikte işlerlik kazandıracak herhangi bir alternatif var mı? Katı bir PMML ihracat kütüphanesine ne dersiniz?

+0

Quora'da benzer bir soru var http://www.quora.com/How-do-I-use-scikit-learn-with-Hadoop-and-Mapreduce – miraculixx

+0

Girdiğiniz için teşekkürler. Akış API'sini kullanmak ideal değildir, ancak tüm bunlar başarısız olursa buna başvurmak zorunda kalabilirim. –

+0

Spam sınıflandırması e-posta spam'ında olduğu gibi mi? Bunun için nasıl bir Rasgele Orman kullanmaya geldin? –

cevap

9

Modeli PMML'ye dışa aktarmak ve JPMML-Cascading kullanarak Hadoop'ta değerlendirmek için Py2PMML kullanabilirsiniz. JPMML açık kaynak ancak Zementis'in Py2PMML'i ticari bir ürün gibi görünüyor. Bu alternatifin yanı sıra, Java/Hadoop'ta PMML olarak ihraç edilen Scikit modellerini puanlamak için başka araç yoktur. Çekirdek scikit ekibi, bir PMML ihracatçısı uygulamak için planning'dur. Eğer herhangi bir ticari çözümler istiyor ya da bu tür bir araç için beklemek yoksa Ama yine de bazı seçenekler var uygulanmaktadır ancak bazı kodlama gerektirir edilecek: Java/MapReduce kodu oluşturur yerine C. böylece

  • projeyi uyarlayın
  • export_graphviz işlevini kullanarak her karar ağacının DOT temsilini elde edin ve küçük bir Java yorumlayıcısı yazın.
  • Java ve Hadoop'u unutun, Apache Spark'i kullanın ve Python, Scikit ve PySpark'ı kullanarak karar ağaçlarının her birini paralel olarak değerlendirin.

Umut eder!

+2

SkLearn modellerinin PMML'ye aktarımı, şimdi JPMML-SkLearn (https://github.com/jpmml/jpmml-sklearn) kitaplığı/komut satırı uygulaması tarafından ele alınabilir. Py2PMML'den çok daha sağlam ve çalışmak daha kolaydır. – user1808924