2016-04-12 23 views
0

datastax kurumsal

datastax-başlatma

Biz DataStax DSE Cluster kullandığınız için büyük bir masa (> 1.7 M satırlar) kopyalamak için en iyi yolu nedir.başka bir masaya

Biz 1 tablo olarak ancak ikincil bir endeks

Yaklaşık 1,7 milyon satır

1) cqlsh dan Biz ilk kullanıcı Cassandra KOPYA komutu vardır ile aynı tanımıyla başka bir tabloya bir tablo göç etmeye çalışıyoruz . Bu uzun bir zaman alıyor> 1 saat. Zaman aşımı, çalışmadı 2) Daha sonra 1 tabloyu CSV dosyasına aktarmak için bir program yazıyoruz. Bu CSV dosyasını ayrı CSV dosyalarına böleriz ve 2. tabloya karşı yüklemeyi deneriz. Bu doğru bir yaklaşımdır,

insert bazen sürer ve biz CSV dosyasını olmadığından dolayı Biz

http://www.datastax.com/dev/blog/using-the-cassandra-bulk-loader-updated inceliyorlar

3) başarısız?

Ve bu lib https://github.com/yukim/cassandra-bulkload-example'u SSTABLE'ı oluşturmak için kullanıyoruz.

Bunu halletmenin doğru yolu mu?

+0

https://github.com/brianmhess/cassandra-loader? –

cevap

1

Eğer bir csv varsa ben bu toplu yükleyici kullanarak öneriyoruz:

sc.cassandraTable ("KS1", "tablosu: Eğer Kıvılcım analitiği Kümenizde

https://github.com/brianmhess/cassandra-loader

etkinleştirdiyseniz ") .saveToCassandra (" KS2" , "

bakınız tablo"):

http://docs.datastax.com/en/latest-dse/datastax_enterprise/migration/migratingBulkSparkRDD.html

+0

Merhaba Lain, mevcut CSV dosyasına sahibiz. Bu araçla, ilk önce hedef DB'deki şemayı oluşturmamız gerektiğini tahmin ediyorum. Ve sonra yükleme aracını orada çalıştırın. Bu doğru mu? Ayrıca, uzak bir ana bilgisayardan bağlantı açılanında sorun yaşıyoruz, bu yükleme aracını ana cassandra düğümünün çalıştırıldığı düğümde çalıştırmak daha mı iyi? –

+0

Ayrıca, bu araç neden daha iyi? Kodu inceledim, sadece ConnectionPool kullanıyor gibi görünüyor, bu nasıl sshtableload daha iyi? http://www.slideshare.net/BrianHess4/bulk-loading-into-cassandra büyük bir avantajı sstables yazmak zorunda değildir: –

+0

Bu SlideShare sstableloader, kopyalama ve cassandra yükleyici uygulamasını karşılaştırır. Ayrıca yükleyici ile yükleyiciyi tolere edebilir ancak sstableloader ile değil. Genellikle istemcileri ayrı ana bilgisayarlarda çalıştırmak en iyisidir. Bağlantınız düşüyorsa, gelecek vadeleri ve/veya oranı düşürmeyi deneyebilirsiniz. – Iain