爬蟲爬蟲初識

網路爬蟲（又被稱為網頁蜘蛛，網路機械人），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼，通俗的講就是通過程式去獲取web頁面上自己想要的資料，也就是自動抓取資料。

發起請求

通過http庫向目標站點發起請求，也就是傳送乙個request，請求可以包含額外的header等資訊，等待伺服器響應

獲取響應內容解析內容

得到的內容可能是html,可以用正規表示式，頁面解析庫進行解析，可能是json,可以直接轉換為json物件解析，可能是二進位制資料，可以做儲存或者進一步的處理

儲存資料

儲存形式多樣，可以存為文字，也可以儲存到資料庫，或者儲存特定格式的檔案

見部落格：

直接處理

json解析

正規表示式處理

beautifulsoup解析處理

pyquery解析處理

xpath解析處理

文字：純文字，json,xml等

關係型資料庫：如mysql,oracle,sql server等結構化資料庫

非關係型資料庫：mongodb,redis等key-value形式儲存

參考：

爬蟲（一）初識爬蟲

網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬瀏覽器傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器客戶端能做的事情，爬蟲都能夠做爬蟲的工作流程 robots協議通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取，但它僅僅是...

Python爬蟲初識爬蟲

模擬瀏覽器開啟網頁，獲取網頁中我們想要的那部分資料瀏覽器開啟網頁的過程當你在瀏覽器中輸入位址後，經過dns伺服器找到伺服器主機，向伺服器傳送乙個請求，伺服器經過解析後傳送給使用者瀏覽器結果，包括html,js,css等檔案內容，瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果瀏覽器傳送訊息給...

Python爬蟲初識

目標物件為靜態 url管理器網頁解析器 beautifulsoup 執行流程避免重複抓取迴圈抓取功能訪問方式 import urllib2 response urllib2.urlopen print response.getcode 獲取狀態碼,200表示獲取成功 cont respon...

爬蟲 爬蟲初識

爬蟲（一）初識爬蟲

Python爬蟲 初識爬蟲

Python爬蟲初識

相關推薦

爬蟲爬蟲初識

Python爬蟲初識爬蟲