python學習筆記（2）初識爬蟲

資料抓取，從網際網路抓取想要的資料、資料爬蟲、網路蜘蛛。

例如

（1）https 協議

（2）www.baidu.com 網域名稱

（4）?ie=utf-8&wd=%e5%b0%8f%e5%85%94%e5%ad%90 引數

明確需求

根據需求，尋找對應的web**（url)

用python程式模擬瀏覽器去訪問對應的**（url)，需要用到python的第三方請求庫（request）

獲取伺服器返回的源**（html、json、xml)

根據返回的源**提取需要的資料（re正則、xpath等）

把資料整理儲存

Python爬蟲初識爬蟲

模擬瀏覽器開啟網頁，獲取網頁中我們想要的那部分資料瀏覽器開啟網頁的過程當你在瀏覽器中輸入位址後，經過dns伺服器找到伺服器主機，向伺服器傳送乙個請求，伺服器經過解析後傳送給使用者瀏覽器結果，包括html,js,css等檔案內容，瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果瀏覽器傳送訊息給...

Python爬蟲初識

目標物件為靜態 url管理器網頁解析器 beautifulsoup 執行流程避免重複抓取迴圈抓取功能訪問方式 import urllib2 response urllib2.urlopen print response.getcode 獲取狀態碼,200表示獲取成功 cont respon...

python爬蟲初識

1.爬蟲定義學習python爬蟲首先要知道python爬蟲是什麼爬蟲就是提取網頁中有效的資料。原理就是向伺服器提交請求，伺服器響應之後並返回資料。返回的資料再篩選提取之後就是我們要的有效資料。整個過程就是爬蟲。2.爬蟲組成 1.傳送請求的python 2.被爬取的網頁。3.網頁結構爬取網頁之前...

python學習筆記（2） 初識爬蟲

Python爬蟲 初識爬蟲

Python爬蟲初識

python爬蟲初識

相關推薦

python學習筆記（2）初識爬蟲

Python爬蟲初識爬蟲