İndeksleme ve arama yapmam gereken birkaç (1 milyon +) belge, e-posta iletisi vb. Var. Her belge potansiyel olarak farklı bir kodlamaya sahiptir.Dizin oluşturma için Unicode verilerini normalleştirme (Çok baytlı diller için): Hangi ürünler bu? Lucene/Hadoop/Solr mu?
Hangi ürünleri (veya ürün konfigürasyonu) bunu doğru bir şekilde yapmalı ve anlamalı mıyım?
İlk tahminim Lucene tabanlı bir şeydir, ancak bu sadece giderken öğreniyorum. Asıl arzum, ASAP'ı zaman alıcı kodlama işlemini başlatmaktır, böylece arama ön ucunu eş zamanlı olarak oluşturabiliriz. Bu, çift baytlı karakterlerin bir çeşit normalleştirilmesini gerektirebilir.
Herhangi bir yardım için teşekkür ederiz.