造價(jià)工程師一年考幾次造價(jià)員一年考幾次
建造師- 造價(jià)工程師
- 2025-11-10
- 38
在我們的對2016年大數(shù)據(jù)行業(yè)的預(yù)測文章《2016年大數(shù)據(jù)將走下神壇擁抱生活 資本青睞創(chuàng)業(yè)機(jī)會(huì)多》里,我們曾經(jīng)提到“在2016年,防止網(wǎng)站數(shù)據(jù)爬取將變成一種生意。”。今天我找到了來自”BSDR“的一篇文章,文章里主要介紹了常見的反爬蟲應(yīng)對方法,下面是正文。
常見的反爬蟲
這幾天在爬一個(gè)網(wǎng)站,網(wǎng)站做了很多反爬蟲工作,爬起來有些艱難,花了一些時(shí)間才繞過反爬蟲。在這里把我寫爬蟲以來遇到的各種反爬蟲策略和應(yīng)對的方法總結(jié)一下。
從功能上來講,爬蟲一般分為數(shù)據(jù)采集,處理,儲存三個(gè)部分。這里我們只討論數(shù)據(jù)采集部分。
一般網(wǎng)站從三個(gè)方面反爬蟲:用戶請求的Headers,用戶行為,網(wǎng)站目錄和數(shù)據(jù)加載方式。前兩種比較容易遇到,大多數(shù)網(wǎng)站都從這些角度來反爬蟲。第三種一些應(yīng)用ajax的網(wǎng)站會(huì)采用,這樣增大了爬取的難度。
通過Headers反爬蟲
從用戶請求的Headers反爬蟲是最常見的反爬蟲策略。很多網(wǎng)站都會(huì)對Headers的User-Agent進(jìn)行檢測,還有一部分網(wǎng)站會(huì)對Referer進(jìn)行檢測(一些資源網(wǎng)站的防盜鏈就是檢測Referer)。如果遇到了這類反爬蟲機(jī)制,可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent復(fù)制到爬蟲的Headers中;或者將Referer值修改為目標(biāo)網(wǎng)站域名。對于檢測Headers的反爬蟲,在爬蟲中修改或者添加Headers就能很好的繞過。
基于用戶行為反爬蟲
還有一部分網(wǎng)站是通過檢測用戶行為,例如同一IP短時(shí)間內(nèi)多次訪問同一頁面,或者同一賬戶短時(shí)間內(nèi)多次進(jìn)行相同操作。
大多數(shù)網(wǎng)站都是前一種情況,對于這種情況,使用IP代理就可以解決。可以專門寫一個(gè)爬蟲,爬取網(wǎng)上公開的代理ip,檢測后全部保存起來。這樣的代理ip爬蟲經(jīng)常會(huì)用到,最好自己準(zhǔn)備一個(gè)。有了大量代理ip后可以每請求幾次更換一個(gè)ip,這在requests或者urllib2中很容易做到,這樣就能很容易的繞過第一種反爬蟲。
對于第二種情況,可以在每次請求后隨機(jī)間隔幾秒再進(jìn)行下一次請求。有些有邏輯漏洞的網(wǎng)站,可以通過請求幾次,退出登錄,重新登錄,繼續(xù)請求來繞過同一賬號短時(shí)間內(nèi)不能多次進(jìn)行相同請求的限制。
動(dòng)態(tài)頁面的反爬蟲
上述的幾種情況大多都是出現(xiàn)在靜態(tài)頁面,還有一部分網(wǎng)站,我們需要爬取的數(shù)據(jù)是通過ajax請求得到,或者通過Java生成的。首先用Firebug或者HttpFox對網(wǎng)絡(luò)請求進(jìn)行分析。如果能夠找到ajax請求,也能分析出具體的參數(shù)和響應(yīng)的具體含義,我們就能采用上面的方法,直接利用requests或者urllib2模擬ajax請求,對響應(yīng)的json進(jìn)行分析得到需要的數(shù)據(jù)。
能夠直接模擬ajax請求獲取數(shù)據(jù)固然是極好的,但是有些網(wǎng)站把a(bǔ)jax請求的所有參數(shù)全部加密了。我們根本沒辦法構(gòu)造自己所需要的數(shù)據(jù)的請求。我這幾天爬的那個(gè)網(wǎng)站就是這樣,除了加密ajax參數(shù),它還把一些基本的功能都封裝了,全部都是在調(diào)用自己的接口,而接口參數(shù)都是加密的。遇到這樣的網(wǎng)站,我們就不能用上面的方法了,我用的是selenium+phantomJS框架,調(diào)用瀏覽器內(nèi)核,并利用phantomJS執(zhí)行js來模擬人為操作以及觸發(fā)頁面中的js腳本。從填寫表單到點(diǎn)擊按鈕再到滾動(dòng)頁面,全部都可以模擬,不考慮具體的請求和響應(yīng)過程,只是完完整整的把人瀏覽頁面獲取數(shù)據(jù)的過程模擬一遍。
用這套框架幾乎能繞過大多數(shù)的反爬蟲,因?yàn)樗皇窃趥窝b成瀏覽器來獲取數(shù)據(jù)(上述的通過添加 Headers一定程度上就是為了偽裝成瀏覽器),它本身就是瀏覽器,phantomJS就是一個(gè)沒有界面的瀏覽器,只是操控這個(gè)瀏覽器的不是人。利用 selenium+phantomJS能干很多事情,例如識別點(diǎn)觸式(12306)或者滑動(dòng)式的驗(yàn)證碼,對頁面表單進(jìn)行暴力破解等等。它在自動(dòng)化滲透中還 會(huì)大展身手,以后還會(huì)提到這個(gè)。
作者:BSDR
聚焦爬蟲原理及其在互聯(lián)網(wǎng)金融領(lǐng)域應(yīng)用前景淺析
開源爬蟲框架各有什么優(yōu)缺點(diǎn)?
Python 爬蟲的工具列表 附Github代碼下載鏈接

“今日頭條”怎么計(jì)算:“網(wǎng)絡(luò)爬蟲+相似矩陣”技術(shù)運(yùn)作流程
33款可用來抓數(shù)據(jù)的開源爬蟲軟件工具
用php做爬蟲 百萬級別知乎用戶數(shù)據(jù)爬取與分析
技術(shù)向:基于java社會(huì)化海量數(shù)據(jù)采集爬蟲框架搭建(附代碼)
End.

轉(zhuǎn)載請注明來自36大數(shù)據(jù)(36dsj.com):36大數(shù)據(jù)? 網(wǎng)站常見的反爬蟲和應(yīng)對方法
免責(zé)聲明: 本站提供的任何內(nèi)容版權(quán)均屬于相關(guān)版權(quán)人和權(quán)利人,如有侵犯你的版權(quán)。 請來信指出,我們將于第一時(shí)間刪除! 所有資源均由免費(fèi)公共網(wǎng)絡(luò)整理而來,僅供學(xué)習(xí)和研究使用。請勿公開發(fā)表或 用于商業(yè)用途和盈利用途。
本文鏈接:http://www.366700.com/zaojia/37943.html
發(fā)表評論