Spark ORC dizinlerini nasıl kullanırım?

Kıvılcımdan veya endekslenmeyi etkinleştirmek için seçenek nedir?Spark ORC dizinlerini nasıl kullanırım?

  df 
      .write() 
      .option("mode", "DROPMALFORMED") 
      .option("compression", "snappy") 
      .mode("overwrite") 
      .format("orc") 
      .option("index", "user_id") 
      .save(...);

ben orc gelen endeks sütun "user_id" orada koymak ne olurdu, yukarı .option("index", uid) yapıyorum.

kaynak

2017-10-29 ForeverConfused

Denediniz mi: .partitionBy("user_id")?

df 
     .write() 
     .option("mode", "DROPMALFORMED") 
     .option("compression", "snappy") 
     .mode("overwrite") 
     .format("orc") 
     .partitionBy("user_id") 
     .save(...)

kaynak

2017-11-08 18:08:57

Sanırım, bölüm dizin oluşturmak yerine kullanıcı başına yeni bir dosya oluşturacaktır. Ama sen sadece bir cevap verdin, ben de sana lütfunu verdim. – ForeverConfused

@ForeverConfused bunun üzerinde araştırma yapıyorum. Yakında haber vereceğim. – Achyuth

@Achyuth, ORC dosyasında dizin oluşturmaya yönelik herhangi bir yaklaşım buldunuz mu? Bugüne kadar hiçbir şey bulamadım. Bana öyle geliyor ki, ORC dosyasındaki dizini kullanmanın tek yolu Hive kullanıyor. Lütfen yanlışsa beni düzeltin. Teşekkürler! –

Spark ORC dizinlerini nasıl kullanırım?

cevap

İlgili konular