天蛛爬蟲學習筆記 HTTP基礎知識

2021-10-05 07:41:40 字數 906 閱讀 9939

1.uri、url、urn的關係

uri全稱為 uniform resource identifier,即統一資源標誌符,url 的全稱為 universal resource locator,即統一資源定位符,urn全稱為 universal resource name,即統一資源名稱。其中url和urn都是uri的子集,由於urn只定義名稱沒有標記位置,所以用的比較少,通常用的都是url。例如: 就是乙個url

2、超文字

在chrome中按f12檢視的網頁html源**就可以看做是超文字

http是超文字傳說協議,https是http的安全版,目前大部分**都採用https協議

4、請求

包括4個內容:請求方法(request method)、請求的**(request url)、請求頭(request headers)、請求體(request body)

4.1、常用的請求方法:get、post

get請求的引數包含在url中,敏感資訊建議用post請求,會將資訊放在表單中

4.2請求頭:用來說明伺服器需要的資訊

cookies:為了辨別使用者進行會話跟蹤儲存在本地的資料,瀏覽器請求站點資訊的時候會在請求頭加上cookies資訊,伺服器就能識別使用者身份

referer:標記資訊**,可以做**跟蹤

user_agent:簡稱ua,可是使伺服器識別客戶使用的瀏覽器型別

4.3請求體

請求體的內容一般是post的表單資料

5、響應

5.1、響應狀態碼ststus code,200表示連線成功

5.2、響應體

爬蟲中要解析的就是響應體的內容

天蛛爬蟲學習筆記 Requests爬蟲例項

定義乙個爬蟲的通用框架 import requests defgethtmltext url 爬蟲通用框架,try 捕捉到錯誤後會執行except的語句 r requests.get url r.raise for status 返回值若為200,則表示正常訪問 繼續執行,否則會返回httperro...

爬蟲基礎學習筆記 HTML

html頁面中,所有內容都包含在一對標籤內,標籤之間可以巢狀,標籤和標籤對應的內容共同組成html頁面。標籤定義的內容元素稱為節點,節點的相互巢狀形成了網頁的結構,稱為html dom樹。dom是w3c的標準,即文件物件模型,定義了訪問xml和html文件的標準,html dom就是針對html文件...

爬蟲學習筆記(二)http請求詳解

上篇部落格裡面寫了,爬蟲就是發http請求 瀏覽器裡面開啟傳送的都是http請求 然後獲取到response,咱們再從response裡面找到想要的資料,儲存到本地。咱們本章就來說一下什麼是http請求,它裡面都有哪些東西,我們在寫爬蟲的時候,怎麼http請求裡面哪些對我們的爬蟲有影響。咱們開啟乙個...