içindeki verileri notlama, bir web sitesindeki kazıyıcının verilerini görüntülemek için scrapy
kullanıyorum. Ancak, istediğim veriler html'nin içinde değildi, bunun yerine javascript'ten geliyor. Yani, benim sorum:Bir Javascript
Bu gibi durumların değerleri (metin değerleri) nasıl alınır? Ben almaya çalışıyorum https://www.mcdonalds.com.sg/locate-us/
Nitelikler: Adres, İletişim, İşletme saatleri
Bu, ben ekran kazımaya çalışıyorum sitesidir.
"Sağ tıklama" yaparsanız, bir krom tarayıcının içinde "kaynağı görüntüle" yaparsanız, bu değerlerin HTML'de mevcut olmadığını görürsünüz.
Düzenleme
Sry paul, sana şimdi gerçekten sıkışıp kaldım, bana admin-ajax.php
bulundu ve vücudu gördüm ama olanı yaptı.
Değerleri json nesnesinden nasıl alıp kendi değişken alanımdaki bir alana depolarım? Halk için sadece bir öznitelik ve sadece terapi yapmaya yeni başlayanları nasıl paylaşacağınızı paylaşırsanız iyi olur. İşte benim kod kısacası bu yüzden, nasıl saklamak yapmak, uzun düzenlemek için bugüne kadar
Items.py
class McDonaldsItem(Item):
name = Field()
address = Field()
postal = Field()
hours = Field()
McDonalds.py
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
import re
from fastfood.items import McDonaldsItem
class McDonaldSpider(BaseSpider):
name = "mcdonalds"
allowed_domains = ["mcdonalds.com.sg"]
start_urls = ["https://www.mcdonalds.com.sg/locate-us/"]
def parse_json(self, response):
js = json.loads(response.body)
pprint.pprint(js)
Sry var
json değeri benim özümüme mi? eg
*** madde [ 'adresi'] = * nasıl alınacağını ****
PS, emin değilim bu ama yardımcı olur, ben kullanarak cmd hattında bu komut dosyalarını çalıştırmak
scrub taraması mcdonalds -o McDonalds.json -t json (tüm verilerimi bir json dosyasına kaydetmek için)
Ne kadar minnettar olduğum hakkında yeterince stres yapıyorum. Bunu sormak mantıksız bir şey biliyorum, bunun için zamanınız olmasa bile tamam olacak.
Yardım için Thx Rho bilgilendirici ve işe yaradı! * Benim gibi aynı soruna bakanlar için bu mesajı kontrol et * – HeadAboutToExplode