Bazı içeriği node.js x-ray kazıma çerçevesi ile kazımaya çalışıyorum. İçeriği tek bir sayfadan alabilmem için bağlantıyı nasıl takip edeceğimi ve bir seferde bir alt sayfanın içeriğini nasıl alacağımı kafamdan alamıyorum.NodeJS x-ray web-kazıyıcı: nasıl linkleri takip eder ve alt sayfadan içerik alırım
X-ray github profilinde bir örnek var, ancak kodu başka bir siteye değiştirirseniz boş veriyi döndürür.
Kodumu basitleştirdim ve bu örnek için SO sorularını taramasını sağladım. ince
aşağıdaki çalışır:
var Xray = require('x-ray');
var x = Xray();
x('http://stackoverflow.com/questions/9202531/minimizing-nexpectation-for-a-custom-distribution-in-mathematica', '#content', [{
title: '#question-header h1',
question: '.question .post-text'
}])
(function(err, obj) {
console.log(err);
console.log(obj);
})
Bu aynı zamanda çalışır:
var Xray = require('x-ray');
var x = Xray();
x('http://stackoverflow.com/questions', '#questions .question-summary .summary', [{
title: 'h3',
question: x('h3 [email protected]', '#content .question .post-text'),
}])
(function(err, obj) {
console.log(err);
console.log(obj);
})
ama bu bana verir boş ayrıntılar sonuçlanabilir ve yanlış olduğunu anlamaya olamaz:
var Xray = require('x-ray');
var x = Xray();
x('http://stackoverflow.com/questions', '#questions .question-summary .summary', [{
title: 'h3',
link: 'h3 [email protected]',
details: x('h3 [email protected]', '#content', [{
title: 'h1',
question: '.question .post-text',
}])
}])
(function(err, obj) {
console.log(err);
console.log(obj);
})
Örümcünün sayfayı listelenen sorularla taramasını ve ardından Her soruya bir bağlantı verin ve ek bilgi alın.
Bu konuyla ilgili bazı cevapları burada bulabilirsiniz: [x-ışını kazıma ikincil URL'lerle ilgili soru] (https://stackoverflow.com/questions/39609440/node-x-ray-crawling-data-from-collection-of- url/39632464) –