Dizin oluşturma için Unicode verilerini normalleştirme (Çok baytlı diller için): Hangi ürünler bu? Lucene/Hadoop/Solr mu?

İndeksleme ve arama yapmam gereken birkaç (1 milyon +) belge, e-posta iletisi vb. Var. Her belge potansiyel olarak farklı bir kodlamaya sahiptir.Dizin oluşturma için Unicode verilerini normalleştirme (Çok baytlı diller için): Hangi ürünler bu? Lucene/Hadoop/Solr mu?

Hangi ürünleri (veya ürün konfigürasyonu) bunu doğru bir şekilde yapmalı ve anlamalı mıyım?

İlk tahminim Lucene tabanlı bir şeydir, ancak bu sadece giderken öğreniyorum. Asıl arzum, ASAP'ı zaman alıcı kodlama işlemini başlatmaktır, böylece arama ön ucunu eş zamanlı olarak oluşturabiliriz. Bu, çift baytlı karakterlerin bir çeşit normalleştirilmesini gerektirebilir.

Herhangi bir yardım için teşekkür ederiz.

kaynak

2010-11-20 LamonteCristo

Her şeyi UTF-8'e dönüştürün ve Normalleştirme Formu D'de de çalıştırın. Bu sizin aramalarınız için yardımcı olacaktır.

kaynak

2010-11-20 04:07:00 tchrist

Tika deneyebilirsiniz.

kaynak

2010-11-20 16:37:46 Xodarap

Belgeleri kendiniz dönüştürmeniz gerektiğini ima ediyor musunuz? Bu, özellikle büyük, heterojen bir koleksiyon üzerinde kötü bir fikir gibi geliyor.

İyi bir arama motoru sağlam bir kodlama algılamasına sahip olacaktır. Lucene yapar ve Solr kullanır (Hadoop bir arama motoru değildir). Ve dahili dizin biçiminde normalleştirilmiş bir kodlama kullanmayan bir arama motoruna sahip olmanın mümkün olduğunu düşünmüyorum. Yani normalleştirme, bir seçim kriteri olmayacaktır, ancak kodlama tespitini denemek olacaktır.

kaynak

2010-11-20 16:46:32 Tobu

Solr kullanmanızı öneririz. ExtractingRequestHandler kodlama ve belge formatlarını işler. Solr kullanarak çalışan bir prototip almak nispeten kolaydır. DataImportHandler, bir belge deposunu Solr.

kaynak

2010-11-21 09:45:03

Dizin oluşturma için Unicode verilerini normalleştirme (Çok baytlı diller için): Hangi ürünler bu? Lucene/Hadoop/Solr mu?

cevap

İlgili konular