2012-05-27 21 views
5

Yakınlarda apache nutch'i aramaya başladım. İlgi duyduğumun web sayfalarını nutch ile tarayabilir ve tarayabilirim. Bu verileri nasıl okuyacağımı tam olarak anlamadım. Temel olarak her sayfanın verilerini bazı meta verilerle (şu an için bazı rasgele verilerle) ilişkilendirmek ve daha sonra arama için kullanılacak olan semantik olarak yerel olarak saklamak istiyorum. Aynı şey için solr veya lucene kullanmalı mıyım? Bunların hepsine yeniyim. Bildiğim kadarıyla Nutch web sayfalarını taramak için kullanılıyor. Taranan verilere meta veri eklemek gibi bazı ek özellikler yapabilir mi?Nutch: Veri okuma ve meta veriler ekleme

+0

Merhaba CRS, sen 'semantik-web' Sana (ya Mikro taranmasını istediğiniz sayfalardan bazı yapısal veriyi istediğiniz varsayalım soruyla etiketlenmiş beri, RDFa ve/veya Microdata). Eğer durum buysa, N23 ile bütünleştirilebilecek Any23 (http://incubator.apache.org/any23/) 'a çok zaman kazandıracak ve muhtemelen birileri bunu yapmaya çalışıyor ya da zaten yapıyor.). – castagna

+0

Yanıt için teşekkür ederiz. Any23'e bir göz atacağım. Aslında "normal" web sayfalarını taradım. Herhangi bir meta veri ile ilişkili değildir. Bu web sayfalarındaki metinden meta verileri hesaplayan bazı algoritmalarımız var. Bu meta veriler, web sayfasının yerel kopyasına eklenmelidir. Bu yüzden, web sayfalarını tarar ve içerikleri ayıklar ve daha sonra web sayfalarının yerel kopyasına meta verileri ekleyen bir tarayıcı arıyorum. – CRS

cevap

3

Kullanışlı komutlar.

taramasını sürünerek URL

bin/nutch readdb crawl/crawldb -stats 

Oku segmentinin

bin/nutch crawl urls -dir crawl -depth 3 -topN 5 

alın istatistiklerini başlayın (

bin/nutch readseg -dump crawl/segments/* segmentAllContent 

Oku segmenti (tüm web sayfaları veri alır) yalnızca metin alır alan)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -  noparse -noparsedata 

Hem URL'nin hem de bağlantının kaynak metni ve bağlantı metni de dahil olmak üzere, her bir URL'ye ilişkin bilinen bağlantılar listesini alın.

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent 

Tüm URL'lerin taranmasını sağlayın. Ayrıca getirilen olup olmadığı gibi diğer bilgileri, zorlama zamanı, modifiye zaman vb ikinci bölümü için

bin/nutch readdb crawl/crawldb/ -dump crawlContent 

verir. yeni alan eklemek için, index-extra eklentisini kullanmayı veya özel eklenti yazmayı planlıyorum.

bakın:

this ve this