cassandra
kıvılcım soketini kullanarak Sunucu tarafı veri seçimi ve filtrelemeyi kullanmak istiyorum. Şunları yapmamız ilgi SonraCassandra veri toplama Spark tarafından
CREATE TABLE project1(
year int,
month int,
load_balancer int,
day int,
hour int,
estimation_time timestamp,
sensor_id int,
value double,
...
PRIMARY KEY ((year, month, load_balancer), day, hour, estimation_time, sensor_id)
: Aslında biz Önerdiğim vb, saat, gün, ay aşağıdaki veri modelini kullanarak bu veriler toplama üzerinde ilgilenen, değerler her 1'leri göndermek birçok sensörleri 2014-Aralık'taki veri toplama işini IN (0,1,2,3) yük dengeleyici ile alınız. Yani 4 farklı bölüm.
cassandra
kıvılcım bağdaştırıcısı 1.1.1 sürümünü kullanıyoruz ve tüm değerleri toplayarak saat başına toplanan sorguları bir araya getirdik.
4,341,390 tuples'in işlem süresi için, kıvılcım sonucu döndürmek 11 dakikanızı alır. Şimdi sorun, 5 düğümlerini kullanıyor olmamızdır, ancak kıvılcımı yalnızca bir işçiyi görevini yürütmek için kullanmaktadır. Performansı arttırmak için lütfen sorgu veya veri modeline bir güncelleme önerebilir misiniz?
Herhangi bir çözüm buldunuz mu? – galex
Sensor_id'i bir bölüm anahtarı olarak kullanırken tüm düğümler kullanılacaktır (yaklaşık 500 sensörümüz var). Ancak, önerilen modelde neden 4 iş olmadığını bilmiyorum. Aynı düğümde oldukları için olabilirler! – Wassim
Verilerinizin yalnızca 1 düğümde saklandığını doğruladınız mı? (Bu garip ve dengesiz sesler) ayrıca kıvılcım kodunuzu da gösterebilir mi? – HashtagMarkus