第一天什麼是網路爬蟲

網路爬蟲（又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

爬蟲的基本流程

使用者獲取網路資料的方式：

方式2：模擬瀏覽器傳送請求(獲取網頁**)->提取有用的資料->存放於資料庫或檔案中

爬蟲要做的就是方式2；

1、發起請求

使用http庫向目標站點發起請求，即傳送乙個request

request包含：請求頭、請求體等

request模組缺陷：不能執行js 和css **

2.獲取響應內容

如果伺服器能正常響應，則會得到乙個response

3.解析內容

解析html資料：正規表示式（re模組），第三方解析庫如beautifulsoup，pyquery等

解析json資料：json模組

解析二進位制資料:以wb的方式寫入檔案

4.儲存資料

資料庫（mysql，mongdb、redis）

檔案request

1.什麼是request？

伺服器收到瀏覽器傳送的資訊後，能夠根據瀏覽器傳送資訊的內容，做出相應的處理，然後把訊息回傳給瀏覽器，這個過程就叫做 http response 。

2.response中包含什麼？

舉例

執行成功後我們看到列印出來的 html 源**200 狀態碼了。基本實現了爬蟲的 request 和 response 過程。

能抓到什麼樣的資料？

網頁文字：如 html 文件， ajax載入的 json 格式文字等；

其他你只要能夠請求到的，都是可以獲取。

舉例

解析方式有哪些？

網路第一天

交換協議 vlan技術虛擬區域網，是指在交換區域網的基礎上，採用網路管理軟體構建的可跨越不同網段不同網路的端到端的邏輯網路。乙個vlan組成乙個邏輯子網，即乙個邏輯廣播域，它可以覆蓋多個網路裝置，允許處於不同地理位置的網路使用者加入到乙個邏輯子網中。stp技術生成樹協議，可應用於計算機網路中樹...

爬蟲小試第一天

第乙個遇到的問題時編碼的問題 data u5468 u6069 u5e73 print data.encode utf 8 print data.decode utf 8 print data.decode unicode escape print u u5468 u6069 u5e73 輸出的結果...

爬蟲第一天（1）

import urllib2 發請求的模組 base url 定義url 執行urlopen方法，傳入乙個url，返回乙個response物件 response urllib2.urlopen base url,timeout 60 data 有資料傳送是post請求，沒有則是get timeout...

第一天 什麼是網路爬蟲

網路第一天

爬蟲小試第一天

爬蟲第一天（1）

相關推薦

第一天什麼是網路爬蟲