模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料
瀏覽器開啟網頁的過程:
當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果
瀏覽器傳送訊息給**所在的伺服器,這個過程就叫做htpp request,伺服器收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應的處理,然後把訊息回傳給瀏覽器,這個過程就是http response
1、request 分析:
1.1、請求方式:
"""1.2、請求的url主要有:get/post兩種型別常用,另外還有head/put/delete/options
get和post的區別就是:請求的資料get是在url中,post則是存放在頭部
post:向指定資源提交資料,請求伺服器進行處理(例如提交表單或者上傳檔案)。資料被包含在請求本文中。這個請求可能會建立新的資源或修改現有資源,或二者皆有。
head:與get方法一樣,都是向伺服器發出指定資源的請求。只不過伺服器將不傳回資源的本文部分。它的好處在於,使用這個方法可以在不必傳輸全部內容的情況下,就可以獲取其中「關於該資源的資訊」(元資訊或稱元資料)。
options:這個方法可使伺服器傳回該資源所支援的所有http請求方法。用'*'來代替資源名稱,向web伺服器傳送options請求,可以測試伺服器功能是否正常運作。
delete:請求伺服器刪除request-uri所標識的資源。
"""
"""1.3、請求頭url,即統一資源定位符,也就是我們說的**,統一資源定位符是對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示,是網際網路上標準資源的位址。網際網路上的每個檔案都有乙個唯一的url,它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它。
url的格式由三個部分組成:
第一部分是協議(或稱為服務方式)。
第二部分是存有該資源的主機ip位址(有時也包括埠號)。
第三部分是主機資源的具體位址,如目錄和檔名等。
爬蟲爬取資料時必須要有乙個目標的url才可以獲取資料,因此,它是爬蟲獲取資料的基本依據。
"""
請求頭欄位釋義:
"""1.4、請求體accept 設定接受的內容型別
accept-charset 設定接受的字元編碼
accept-encoding 設定接受的編碼格式
accept-datetime 設定接受的版本時間
accept-language 設定接受的語言
authorization 設定http身份驗證的憑證
cache-control 設定請求響應鏈上所有的快取機制必須遵守的指令
connection 設定當前連線和hop-by-hop協議請求字段列表的控制選項
content-length 設定請求體的位元組長度
content-md5 設定基於md5演算法對請求體內容進行base64二進位制編碼
content-type 設定請求體的mime型別(適用post和put請求)
cookie 設定伺服器使用set-cookie傳送的http cookie
date 設定訊息傳送的日期和時間
expect 標識客戶端需要的特殊瀏覽器行為
forwarded 披露客戶端通過http**連線web服務的源資訊
from 設定傳送請求的使用者的email位址
host 設定伺服器網域名稱和tcp埠號,如果使用的是服務請求標準埠號,埠號可以省略
"""
請求是攜帶的資料,如提交表單資料時候的表單資料(post)
2、response 分析:
2.1、響應狀態:
有多種響應狀態,如:200代表成功,301跳轉,404找不到頁面,502伺服器錯誤
2.2、相應頭:
2.3、響應體:
包含請求資源的內容,如網頁html,,二進位制資料等
1、解析方式:
2、儲存方式:
Python爬蟲初識
目標物件為靜態 url管理器 網頁解析器 beautifulsoup 執行流程 避免重複抓取 迴圈抓取 功能 訪問方式 import urllib2 response urllib2.urlopen print response.getcode 獲取狀態碼,200表示獲取成功 cont respon...
python爬蟲初識
1.爬蟲定義 學習python爬蟲首先要知道python爬蟲是什麼 爬蟲就是提取網頁中有效的資料。原理就是向伺服器提交請求,伺服器響應之後並返回資料。返回的資料再篩選提取之後就是我們要的有效資料。整個過程就是爬蟲。2.爬蟲組成 1.傳送請求的python 2.被爬取的網頁。3.網頁結構 爬取網頁之前...
初識Python爬蟲
由於本人最近正在學習爬蟲的相關知識,對於爬蟲的很多了解的都不是透徹,有什麼錯誤的地方,還請不吝指出。話不多說,進入正題。第一天,主要就是介紹什麼是爬蟲。網路爬蟲又稱網路蜘蛛 網路螞蟻 網路機械人 蠕蟲等,可以自動化瀏覽網路中的資訊,當然瀏覽資訊的時候需要按照我們制定的規則進行,這些規則我們稱之為網路...