當(dāng)前位置：首頁 > 造價(jià)工程師 > 正文

造價(jià)工程師一年考幾次造價(jià)員一年考幾次

　　在我們的對2016年大數(shù)據(jù)行業(yè)的預(yù)測文章《2016年大數(shù)據(jù)將走下神壇擁抱生活資本青睞創(chuàng)業(yè)機(jī)會(huì)多》里，我們曾經(jīng)提到“在2016年，防止網(wǎng)站數(shù)據(jù)爬取將變成一種生意。”。今天我找到了來自”BSDR“的一篇文章，文章里主要介紹了常見的反爬蟲應(yīng)對方法，下面是正文。

　　常見的反爬蟲

　　這幾天在爬一個(gè)網(wǎng)站，網(wǎng)站做了很多反爬蟲工作，爬起來有些艱難，花了一些時(shí)間才繞過反爬蟲。在這里把我寫爬蟲以來遇到的各種反爬蟲策略和應(yīng)對的方法總結(jié)一下。

　　從功能上來講，爬蟲一般分為數(shù)據(jù)采集，處理，儲存三個(gè)部分。這里我們只討論數(shù)據(jù)采集部分。

　　一般網(wǎng)站從三個(gè)方面反爬蟲：用戶請求的Headers，用戶行為，網(wǎng)站目錄和數(shù)據(jù)加載方式。前兩種比較容易遇到，大多數(shù)網(wǎng)站都從這些角度來反爬蟲。第三種一些應(yīng)用ajax的網(wǎng)站會(huì)采用，這樣增大了爬取的難度。

　　通過Headers反爬蟲

　　從用戶請求的Headers反爬蟲是最常見的反爬蟲策略。很多網(wǎng)站都會(huì)對Headers的User-Agent進(jìn)行檢測，還有一部分網(wǎng)站會(huì)對Referer進(jìn)行檢測（一些資源網(wǎng)站的防盜鏈就是檢測Referer）。如果遇到了這類反爬蟲機(jī)制，可以直接在爬蟲中添加Headers，將瀏覽器的User-Agent復(fù)制到爬蟲的Headers中；或者將Referer值修改為目標(biāo)網(wǎng)站域名。對于檢測Headers的反爬蟲，在爬蟲中修改或者添加Headers就能很好的繞過。

　　基于用戶行為反爬蟲

　　還有一部分網(wǎng)站是通過檢測用戶行為，例如同一IP短時(shí)間內(nèi)多次訪問同一頁面，或者同一賬戶短時(shí)間內(nèi)多次進(jìn)行相同操作。

　　大多數(shù)網(wǎng)站都是前一種情況，對于這種情況，使用IP代理就可以解決。可以專門寫一個(gè)爬蟲，爬取網(wǎng)上公開的代理ip，檢測后全部保存起來。這樣的代理ip爬蟲經(jīng)常會(huì)用到，最好自己準(zhǔn)備一個(gè)。有了大量代理ip后可以每請求幾次更換一個(gè)ip，這在requests或者urllib2中很容易做到，這樣就能很容易的繞過第一種反爬蟲。

　　對于第二種情況，可以在每次請求后隨機(jī)間隔幾秒再進(jìn)行下一次請求。有些有邏輯漏洞的網(wǎng)站，可以通過請求幾次，退出登錄，重新登錄，繼續(xù)請求來繞過同一賬號短時(shí)間內(nèi)不能多次進(jìn)行相同請求的限制。

　　動(dòng)態(tài)頁面的反爬蟲

　　上述的幾種情況大多都是出現(xiàn)在靜態(tài)頁面，還有一部分網(wǎng)站，我們需要爬取的數(shù)據(jù)是通過ajax請求得到，或者通過Java生成的。首先用Firebug或者HttpFox對網(wǎng)絡(luò)請求進(jìn)行分析。如果能夠找到ajax請求，也能分析出具體的參數(shù)和響應(yīng)的具體含義，我們就能采用上面的方法，直接利用requests或者urllib2模擬ajax請求，對響應(yīng)的json進(jìn)行分析得到需要的數(shù)據(jù)。

　　能夠直接模擬ajax請求獲取數(shù)據(jù)固然是極好的，但是有些網(wǎng)站把a(bǔ)jax請求的所有參數(shù)全部加密了。我們根本沒辦法構(gòu)造自己所需要的數(shù)據(jù)的請求。我這幾天爬的那個(gè)網(wǎng)站就是這樣，除了加密ajax參數(shù)，它還把一些基本的功能都封裝了，全部都是在調(diào)用自己的接口，而接口參數(shù)都是加密的。遇到這樣的網(wǎng)站，我們就不能用上面的方法了，我用的是selenium+phantomJS框架，調(diào)用瀏覽器內(nèi)核，并利用phantomJS執(zhí)行js來模擬人為操作以及觸發(fā)頁面中的js腳本。從填寫表單到點(diǎn)擊按鈕再到滾動(dòng)頁面，全部都可以模擬，不考慮具體的請求和響應(yīng)過程，只是完完整整的把人瀏覽頁面獲取數(shù)據(jù)的過程模擬一遍。

　　用這套框架幾乎能繞過大多數(shù)的反爬蟲，因?yàn)樗皇窃趥窝b成瀏覽器來獲取數(shù)據(jù)（上述的通過添加 Headers一定程度上就是為了偽裝成瀏覽器），它本身就是瀏覽器，phantomJS就是一個(gè)沒有界面的瀏覽器，只是操控這個(gè)瀏覽器的不是人。利用 selenium+phantomJS能干很多事情，例如識別點(diǎn)觸式（12306）或者滑動(dòng)式的驗(yàn)證碼，對頁面表單進(jìn)行暴力破解等等。它在自動(dòng)化滲透中還會(huì)大展身手，以后還會(huì)提到這個(gè)。

　　作者：BSDR

　　聚焦爬蟲原理及其在互聯(lián)網(wǎng)金融領(lǐng)域應(yīng)用前景淺析

　　開源爬蟲框架各有什么優(yōu)缺點(diǎn)？

　　Python 爬蟲的工具列表附Github代碼下載鏈接

造價(jià)工程師一年考幾次造價(jià)員一年考幾次第1張

　　“今日頭條”怎么計(jì)算：“網(wǎng)絡(luò)爬蟲+相似矩陣”技術(shù)運(yùn)作流程

　　33款可用來抓數(shù)據(jù)的開源爬蟲軟件工具

　　用php做爬蟲百萬級別知乎用戶數(shù)據(jù)爬取與分析

　　技術(shù)向：基于java社會(huì)化海量數(shù)據(jù)采集爬蟲框架搭建（附代碼）

　　End.

造價(jià)工程師一年考幾次造價(jià)員一年考幾次第2張

　　轉(zhuǎn)載請注明來自36大數(shù)據(jù)（36dsj.com)：36大數(shù)據(jù)? 網(wǎng)站常見的反爬蟲和應(yīng)對方法

免責(zé)聲明：本站提供的任何內(nèi)容版權(quán)均屬于相關(guān)版權(quán)人和權(quán)利人，如有侵犯你的版權(quán)。請來信指出，我們將于第一時(shí)間刪除！所有資源均由免費(fèi)公共網(wǎng)絡(luò)整理而來，僅供學(xué)習(xí)和研究使用。請勿公開發(fā)表或用于商業(yè)用途和盈利用途。
本文鏈接：http://www.366700.com/zaojia/37943.html