2010-03-02 14 views
5

Hey çocuklar, SOLR'daki verileri indekslerken içerikten HTML almayı başardım.Depolama için değil, depolamak için SOLR'da HTML'yi sıyırma

Verileri basitçe saklarken HTML'den veri ayıklamak mümkün mü? solr.HTMLStripCharFilterFactory

<field name="Content" type="textNoHTML" indexed="true" stored="true"/> 

Ve alan türü "textNoHTML" uygular:

Bu

benim alandır

<charFilter class="solr.HTMLStripCharFilterFactory" /> 

Dediğim gibi, bu indeksleme için çalışıyor, ancak öyle Depolama için benzer bir filtre uygulamak mümkün mü?

Şerefe!

cevap

3

DataImportHandler'ı kullanıyorsanız, HTMLStripTransformer'u kullanabilirsiniz. Aksi takdirde, bu istemci tarafını kendi başınıza uygulamak zorunda kalacaksınız. İstemciniz .NET ise, HtmlAgilityPack'u kullanabilirsiniz.

+0

+1 Görüyorum. Yani, DataImportHandler'ı kullanarak bir veri deposundan veri aktarıyorsam, bu trafoyu kullanabilirim ... ama eğer XML komutları ile ekliyorsam, yapamıyorum? Nedenmiş? Her neyse, harika, agilitypack'i kontrol edeceğim. şerefe! – andy

+0

AFAIK saklanan alanları her zaman verbatim olarak saklanır. DIH bir müşteri olarak hareket eder, bu yüzden transformatörlere sahip olabilir. –

+0

ahh, anladım. alkış mauricio – andy