爬蟲定義
爬蟲基本流程
發起請求
通過url向伺服器傳送requests請求,請求可以包含額外的header資訊。
2.獲取響應內容
解析內容
如果是html**則可以使用網頁解析器進行解析;如果是json資料則可以轉換成json物件進行解析;如果是二進位制資料則可以儲存到檔案進行進一步的處理。
儲存資料
可以儲存到本地檔案,也可以儲存到資料庫(mysql edismongodb等)。
requests請求
當我們通過瀏覽器向伺服器傳送requests請求時,這個request包含什麼內容?可以通過chrome瀏覽器的開發人員工具(f12)檢視。
請求方式
最常用的請求方式包括get請求和post請求。
post請求在開發中最常見的是通過表單進行提交,從使用者角度來講最常見的就是登陸驗證。當你需要輸入一些資訊進行登陸的時候,這次請求就是post請求。
get請求最常見的就是搜尋回車之後,資訊將以?間隔新增在url後面。類似於而且get請求是用來獲取資料,是冪等的。
其他還包括put請求(向服務端傳送資訊從而改變內容)和delete請求(刪除資源)。
對於資源的操作,其實都可以通過post/get完成,不需要用到put/delete,實際中put/delete也很少用。
uri統一資源定位符
requests headers
請求頭,包括這次請求的型別,cookie資訊以及瀏覽器型別等。
請求頭在我們進行網頁抓取的時候,伺服器會通過解析請求頭來進行資訊的審核,判斷請求是否為合法請求。所以當我們通過程式偽裝瀏覽器進行請求的時候可以設定請求頭的資訊。
請求體post請求會把使用者資訊包裝在form-data裡面進行提交,因此相比於get請求,post請求的headers標籤的內容會多出form data這個資訊包。
response
響應狀態
通過headers中的general可以看到status code,使用數字**表示對於狀態,200表示成功,301跳轉,404找不到網頁,502伺服器錯誤等。
響應頭包括內容的型別,cookie資訊等。
響應體請求的目的就是為了得到響應體,包括html**,json及二進位制資料等。
requests模組
安裝使用pip install requests即可。
通過requests進行網頁請求
通過新增請求頭資訊
response1 = requests.get('', headers=headers)
python爬蟲基本流程 Python爬蟲流程
python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...
python爬蟲 (2)爬蟲基本流程
網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料 模擬瀏覽器開啟...
爬蟲學習 爬蟲基本流程
標籤 空格分隔 資料探勘 爬蟲 1 發起請求 2 獲取相應內容 3 解析網路內容 4 儲存資料 結構化儲存 user server request server user response 1 請求方式 get,post,head,put,delete 2 get和post的區別 請求的引數包含的部...