Belirli bir türdeki tüm dosyaları wget kullanarak bir web sitesinden indirin

Aşağıdaki işlem yapılmadı. Neden sadece başlangıç URL'sinde durduğunu bilmiyorum, verilen dosya türünü aramak için içindeki bağlantılara girmeyin.Belirli bir türdeki tüm dosyaları wget kullanarak bir web sitesinden indirin

wget -r -A .pdf HOME_PAGE_URL

yinelemeli bir web sitesinde tüm pdf dosyalarını indirmek için başka yol var. ?

kaynak

2013-08-16 SoulMan

Olası yinelenen göre yanlıştır wget/curl kullanarak belirli bir web sayfasında .zip dosyalarına tüm bağlantıları indirmek?] (http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl) – Seanny123

Bir robots.txt dosyasını temel alabilir. -e robots=off eklemeyi deneyin.

Diğer olası sorunlar, çerez tabanlı kimlik doğrulaması veya wget için aracı reddetmesidir. See these examples.

DÜZENLEME: ".pdf" dot [Nasıl sunsite.univie.ac.at

kaynak

2013-08-16 13:39:05 rimrul

Denedim ama aynı sonuç. Onun için kesinlikle bir çerez tabanlı bir web sitesi değil. Ben yinelemeli python urllib kullanarak indirebiliriz.May log size yardımcı olacaktır. Temelde ana sayfa indiriyor, çünkü reddedilmesi gerektiği için kaldırılıyor. Ardından bağlantı bulunmayan ve orada duran bir sayfa var. Umut mage içindeki diğer bağlantılar ne olacak? – SoulMan

Neyi denedin? Noktayı kaldırmak mı? Robots.txt yoksayılıyor mu? Ya da bir tarayıcı simüle mi? Ya da hepsi? – rimrul

Noktayı kaldırmayı ve robotu görmezden gelmeyi denedi – SoulMan

benim için cmd çalışmalarını izleyen, bir sitenin fotoğraf indirir

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/

kaynak

2015-06-03 06:27:18 telehan

Belirli bir türdeki tüm dosyaları wget kullanarak bir web sitesinden indirin

cevap

İlgili konular