模擬瀏覽器開啟網頁,獲取瀏覽器的資料(爬蟲者想要的資料);
瀏覽器開啟網頁的過程:當你在通過瀏覽器訪問乙個鏈結後,經過dns伺服器找到伺服器ip,向伺服器傳送乙個request;伺服器經過解析後,給出乙個response(可以是html、js、css等檔案內容),瀏覽器(本質:編譯器)解析渲染後,顯示網頁內容;
1.請求目標鏈結
發起乙個帶有header、請求引數等資訊的request,等待伺服器響應;
2.獲取響應內容
3.解析內容
得到的內容可能是html,可以用正規表示式,頁面解析庫進行解析;可能是json字串,可以直接轉換為json物件解析,可能是二進位制資料,可以做儲存或者進一步的處理……
4.儲存資料
儲存形式多樣,可以存為文字,也可以儲存到資料庫,或者存為特定格式的檔案;
request一般的請求方式:get/port兩種常見型別,還有:head/put/delete/options
get - 從指定的資源請求資料。
post - 向指定的資源提交要被處理的資料
get請求的注意點:
get 請求可被快取
get 請求保留在瀏覽器歷史記錄中
get 請求可被收藏為書籤
get 請求不應在處理敏感資料時使用
get 請求有長度限制
get 請求只應當用於取回資料
url簡單說明:
url的格式由三個部分組成:
第一部分是協議(或稱為服務方式);
第二部分是存有該資源的主機ip位址(有時也包括埠號);
第三部分是主機資源的具體位址,如目錄和檔名等;
爬蟲爬取資料時必須要有乙個目標的url才可以獲取資料,因此,它是爬蟲獲取資料的基本依據;
直接處理
json解析
正規表示式處理
beautifulsoup解析處理
pyquery解析處理
xpath解析處理
爬蟲學習 爬蟲基本流程
標籤 空格分隔 資料探勘 爬蟲 1 發起請求 2 獲取相應內容 3 解析網路內容 4 儲存資料 結構化儲存 user server request server user response 1 請求方式 get,post,head,put,delete 2 get和post的區別 請求的引數包含的部...
爬蟲資料之爬蟲流程
多頁面爬蟲流程 有的網頁存在多頁的情況,每頁的網頁結構都相同或類似,這種型別的網頁爬蟲流 程為 手動翻頁並觀察各網頁的url 構成特點,構造出所有頁面的url 存入列表中。根據url 列表依次迴圈取出url 定義爬蟲函式。迴圈呼叫爬蟲函式,儲存資料。迴圈完畢,結束爬蟲程式 跨頁面爬蟲流程 定義爬取函...
爬蟲主要流程
第一種方法 response1 urllib2.urlopen url print response1.getcode 請求狀態碼 print len response1.read read爬取網頁資訊 print 第二種方法,新增頭部資訊,模擬瀏覽器訪問 request urllib2.reque...