2013-08-16 34 views
8

Aşağıdaki işlem yapılmadı. Neden sadece başlangıç ​​URL'sinde durduğunu bilmiyorum, verilen dosya türünü aramak için içindeki bağlantılara girmeyin.Belirli bir türdeki tüm dosyaları wget kullanarak bir web sitesinden indirin

wget -r -A .pdf HOME_PAGE_URL

yinelemeli bir web sitesinde tüm pdf dosyalarını indirmek için başka yol var. ?

+0

Olası yinelenen göre yanlıştır wget/curl kullanarak belirli bir web sayfasında .zip dosyalarına tüm bağlantıları indirmek?] (http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl) – Seanny123

cevap

1

Bir robots.txt dosyasını temel alabilir. -e robots=off eklemeyi deneyin.

Diğer olası sorunlar, çerez tabanlı kimlik doğrulaması veya wget için aracı reddetmesidir. See these examples.

DÜZENLEME: ".pdf" dot [Nasıl sunsite.univie.ac.at

+0

Denedim ama aynı sonuç. Onun için kesinlikle bir çerez tabanlı bir web sitesi değil. Ben yinelemeli python urllib kullanarak indirebiliriz.May log size yardımcı olacaktır. Temelde ana sayfa indiriyor, çünkü reddedilmesi gerektiği için kaldırılıyor. Ardından bağlantı bulunmayan ve orada duran bir sayfa var. Umut mage içindeki diğer bağlantılar ne olacak? – SoulMan

+0

Neyi denedin? Noktayı kaldırmak mı? Robots.txt yoksayılıyor mu? Ya da bir tarayıcı simüle mi? Ya da hepsi? – rimrul

+0

Noktayı kaldırmayı ve robotu görmezden gelmeyi denedi – SoulMan

1

benim için cmd çalışmalarını izleyen, bir sitenin fotoğraf indirir

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/