Cassandra, bölümlerini katlar halinde gösteriyor, ancak dahili olarak geniş satırlar halinde depolanıyor ve bu, Spark'le verdiğim veriler üzerinde çalışmak istediğim yoldur.Bir Cassandra bölümünün Spark'da geniş bir sıra gibi hissettirmesi nasıl yapılır?
Daha spesifik olmak gerekirse, bir şekilde ya da başka bir Cassandra bölümleri RDD'si veya bunların bir veri çerçevesi olsun.
Sonra bir map
operasyonu yapmak istiyorum ve kapatılmasıyla, Böyle bir şey ifade etmek istiyorum: sadece bir fikir, basit bir bölünme vermek
row['parameter1']['value']/len(row['parameter2']['vector_value'])
sözde kodu ve boyu alarak bir vektör.
Benim tablo nasıl efficiencly bunu yapabilir
create table(
dataset_name text,
parameter text,
value real,
vector_value list<real>,
primary key(dataset_name, parameter));
olurdu? PySpark ile birlikte.
Sanırım Pandas set_index
gibi bir şeye ihtiyacım var.