Bazı sunucular, web tarayıcılarının web sitelerini taramasını önlemek için bir robots.txt dosyasına sahiptir. Bir web tarayıcısının robots.txt dosyasını yoksaymasının bir yolu var mı? Python için Mechanize kullanıyorum.Web Paleti - Yok Say Robots.txt dosyası?
cevap
mechanize için documentation Bu örnek kodu vardır Ne istiyorsunuz.
Sorununuzu, metada yine [söz konusu sorunun işaretlenmesi] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) konusunda öneriyorum. Şüpheli telif hakkı ihlallerinin nasıl ele alınması gerektiğine dair farklı görüşler var gibi görünüyor ve kesin bir cevap yardımcı olacaktır. – NullUserException
@NullUser yapacak. Sahip olduğum tüm çelişkili tavsiyeleri tek bir yerde toplamaya çalışacağım ve hepimizin ortak bir bakış açısına gelemeyeceğimizi göreceğiz! –
This neye ihtiyacınız benziyor:
br = mechanize.Browser()
....
# Ignore robots.txt. Do not do this without thought and consideration.
br.set_handle_robots(False)
aynen yapar:
from mechanize import Browser
br = Browser()
# Ignore robots.txt
br.set_handle_robots(False)
ama ne yaptığını biliyor ...
Bunu yaparsanız, muhtemelen yasal sorunlar vardır –
Lütfen bunu yapma. –
Aşağı çekmek, bu yasal bir soru olduğu için kötüdür. Ancak bu kötü bir fikir. –