Kazıma için tor ve python kullanma Dergi makalelerinin nasıl alıntı yapıldığı analiz etmek için bir proje üzerinde çalışıyorum. Büyük bir dergi makale isimleri dosyam var. Onları Google Akademik'e iletmeyi ve her birinin kaç alıntı aldığını görmeyi amaçlıyorum. http://www.icir.org/christian/scholar.html denGoogle Scholar
Kullanımı "scholar.py": İşte
ben takip ediyorum stratejisidir. Bu, Google akademisyenini arayan ve CSV biçimindeki ilk isabetle ilgili bilgileri (alıntıların sayısı dahil) döndüren önceden yazılmış bir python betiğidir (alıntı sayısı dahil)Google uzmanı, belirli sayıda aramadan sonra sizi engeller (Yaklaşık 3000 makale başlığım var) sorgu). Çoğu insanın bu sorunu çözmek için Tor (How to make urllib2 requests through Tor in Python? ve Prevent Custom Web Crawler from being blocked) kullandığını buldum. Tor, her birkaç dakikada bir rastgele bir IP adresi veren bir hizmettir.
Ben de scholar.py ve tor başarıyla kurup çalışıyorum. Ben python veya urllib2 kütüphanesi ile çok aşina değilim ve sorgular Tor üzerinden yönlendirilir böylece scholar.py için hangi modifikasyonlar gerektiğini merak ediyorum.
Ayrıca varsa, kitle google bilgi sorguları için daha kolay (ve potansiyel olarak önemli ölçüde farklı) bir yaklaşım için önerilerde bulunmaktayım. Benim için peşin
İlk bağlantı artık geçerli değil – chrisfs
Link rot, bu yüzden sadece bağlantıların cevapları berbattır ... Cevapları talimata dahil etmeliyim, maalesef şu anda yapma zamanım yok, üzgünüm. –
bağlantı şu an için geri döndü – user3791372