網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
爬蟲的基本流程
使用者獲取網路資料的方式:
方式2:模擬瀏覽器傳送請求(獲取網頁**)->提取有用的資料->存放於資料庫或檔案中
爬蟲要做的就是方式2;
1、發起請求
使用http庫向目標站點發起請求,即傳送乙個request
request包含:請求頭、請求體等
request模組缺陷:不能執行js 和css **
2.獲取響應內容
如果伺服器能正常響應,則會得到乙個response
3.解析內容
解析html資料:正規表示式(re模組),第三方解析庫如beautifulsoup,pyquery等
解析json資料:json模組
解析二進位制資料:以wb的方式寫入檔案
4.儲存資料
資料庫(mysql,mongdb、redis)
檔案request
1.什麼是request?
伺服器收到瀏覽器傳送的資訊後,能夠根據瀏覽器傳送資訊的內容,做出相應的處理,然後把訊息回傳給瀏覽器,這個過程就叫做 http response 。
2.response中包含什麼?
舉例
執行成功後我們看到列印出來的 html 源**200 狀態碼了。基本實現了爬蟲的 request 和 response 過程。
能抓到什麼樣的資料?
網頁文字:如 html 文件, ajax載入的 json 格式文字等;
其他你只要能夠請求到的,都是可以獲取。
舉例
解析方式有哪些?
網路第一天
交換協議 vlan技術 虛擬區域網,是指在交換區域網的基礎上,採用網路管理軟體構建的可跨越不同網段 不同網路的端到端的邏輯網路。乙個vlan組成乙個邏輯子網,即乙個邏輯廣播域,它可以覆蓋多個網路裝置,允許處於不同地理位置的網路使用者加入到乙個邏輯子網中。stp技術 生成樹協議,可應用於計算機網路中樹...
爬蟲小試第一天
第乙個遇到的問題時編碼的問題 data u5468 u6069 u5e73 print data.encode utf 8 print data.decode utf 8 print data.decode unicode escape print u u5468 u6069 u5e73 輸出的結果...
爬蟲第一天(1)
import urllib2 發請求的模組 base url 定義url 執行urlopen方法,傳入乙個url,返回乙個response物件 response urllib2.urlopen base url,timeout 60 data 有資料傳送是post請求,沒有則是get timeout...