Yakınlarda apache nutch'i aramaya başladım. İlgi duyduğumun web sayfalarını nutch ile tarayabilir ve tarayabilirim. Bu verileri nasıl okuyacağımı tam olarak anlamadım. Temel olarak her sayfanın verilerini bazı meta verilerle (şu an için bazı rasgele verilerle) ilişkilendirmek ve daha sonra arama için kullanılacak olan semantik olarak yerel olarak saklamak istiyorum. Aynı şey için solr veya lucene kullanmalı mıyım? Bunların hepsine yeniyim. Bildiğim kadarıyla Nutch web sayfalarını taramak için kullanılıyor. Taranan verilere meta veri eklemek gibi bazı ek özellikler yapabilir mi?Nutch: Veri okuma ve meta veriler ekleme
5
A
cevap
3
Kullanışlı komutlar.
taramasını sürünerek URL
bin/nutch readdb crawl/crawldb -stats
Oku segmentinin
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
alın istatistiklerini başlayın (
bin/nutch readseg -dump crawl/segments/* segmentAllContent
Oku segmenti (tüm web sayfaları veri alır) yalnızca metin alır alan)
bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate - noparse -noparsedata
Hem URL'nin hem de bağlantının kaynak metni ve bağlantı metni de dahil olmak üzere, her bir URL'ye ilişkin bilinen bağlantılar listesini alın.
bin/nutch readlinkdb crawl/linkdb/ -dump linkContent
Tüm URL'lerin taranmasını sağlayın. Ayrıca getirilen olup olmadığı gibi diğer bilgileri, zorlama zamanı, modifiye zaman vb ikinci bölümü için
bin/nutch readdb crawl/crawldb/ -dump crawlContent
verir. yeni alan eklemek için, index-extra eklentisini kullanmayı veya özel eklenti yazmayı planlıyorum.
bakın:
Merhaba CRS, sen 'semantik-web' Sana (ya Mikro taranmasını istediğiniz sayfalardan bazı yapısal veriyi istediğiniz varsayalım soruyla etiketlenmiş beri, RDFa ve/veya Microdata). Eğer durum buysa, N23 ile bütünleştirilebilecek Any23 (http://incubator.apache.org/any23/) 'a çok zaman kazandıracak ve muhtemelen birileri bunu yapmaya çalışıyor ya da zaten yapıyor.). – castagna
Yanıt için teşekkür ederiz. Any23'e bir göz atacağım. Aslında "normal" web sayfalarını taradım. Herhangi bir meta veri ile ilişkili değildir. Bu web sayfalarındaki metinden meta verileri hesaplayan bazı algoritmalarımız var. Bu meta veriler, web sayfasının yerel kopyasına eklenmelidir. Bu yüzden, web sayfalarını tarar ve içerikleri ayıklar ve daha sonra web sayfalarının yerel kopyasına meta verileri ekleyen bir tarayıcı arıyorum. – CRS