1

İndeksleme ve arama yapmam gereken birkaç (1 milyon +) belge, e-posta iletisi vb. Var. Her belge potansiyel olarak farklı bir kodlamaya sahiptir.Dizin oluşturma için Unicode verilerini normalleştirme (Çok baytlı diller için): Hangi ürünler bu? Lucene/Hadoop/Solr mu?

Hangi ürünleri (veya ürün konfigürasyonu) bunu doğru bir şekilde yapmalı ve anlamalı mıyım?

İlk tahminim Lucene tabanlı bir şeydir, ancak bu sadece giderken öğreniyorum. Asıl arzum, ASAP'ı zaman alıcı kodlama işlemini başlatmaktır, böylece arama ön ucunu eş zamanlı olarak oluşturabiliriz. Bu, çift baytlı karakterlerin bir çeşit normalleştirilmesini gerektirebilir.

Herhangi bir yardım için teşekkür ederiz.

cevap

1

Her şeyi UTF-8'e dönüştürün ve Normalleştirme Formu D'de de çalıştırın. Bu sizin aramalarınız için yardımcı olacaktır.

0

Belgeleri kendiniz dönüştürmeniz gerektiğini ima ediyor musunuz? Bu, özellikle büyük, heterojen bir koleksiyon üzerinde kötü bir fikir gibi geliyor.

İyi bir arama motoru sağlam bir kodlama algılamasına sahip olacaktır. Lucene yapar ve Solr kullanır (Hadoop bir arama motoru değildir). Ve dahili dizin biçiminde normalleştirilmiş bir kodlama kullanmayan bir arama motoruna sahip olmanın mümkün olduğunu düşünmüyorum. Yani normalleştirme, bir seçim kriteri olmayacaktır, ancak kodlama tespitini denemek olacaktır.