Domuz burada doğru şeyi yapıyor ve veri setleri unioning edilir. Tek bir dosya, Hadoop'ta bir veri kümesi anlamına gelmez ... Hadoop'taki bir veri kümesi genellikle bir klasördür. Burada bir azaltmaya gerek olmadığı için, bu gitmeyecek.
Bir Harita Çalıştırmak ve Azaltmak için Domuzu kandırmanız gerekir. Bunu genelde yoludur: o zaman
set default_parallel 1
...
A = UNION Message_1,Message_2,Message_3,Message_4;
B = GROUP A BY 1; -- group ALL of the records together
C = FOREACH B GENERATE FLATTEN(A);
...
GROUP BY
birlikte gruplar kayıtların hepsi ve tekrar dışarı listelemek FLATTEN
patlar. (Bu yeni olarak HDF'ler dışarı geri yazmanın metnin tamamını bitiştirmek ve
$ hadoop fs -cat msg1.txt msg2.txt msg3.txt msg4.txt | hadoop fs -put - union.txt
: Burada dikkat edilmesi gereken
Bir şey bunu çok farklı olmadığıdır dosya)
Bu hiç de paralel değildir, ancak tüm verileriniz bir redüktörle hunileştirilmez.
Ayrıca, global 'default_parallel' ayarını yapmak yerine' GROUP ... BY 1 parallel 1 'öğesini de yapabilirsiniz. –