天蛛爬蟲學習筆記 HTTP基礎知識

1.uri、url、urn的關係

uri全稱為 uniform resource identifier，即統一資源標誌符，url 的全稱為 universal resource locator，即統一資源定位符，urn全稱為 universal resource name，即統一資源名稱。其中url和urn都是uri的子集，由於urn只定義名稱沒有標記位置，所以用的比較少，通常用的都是url。例如：就是乙個url

2、超文字

在chrome中按f12檢視的網頁html源**就可以看做是超文字

http是超文字傳說協議，https是http的安全版，目前大部分**都採用https協議

4、請求

包括4個內容：請求方法（request method）、請求的**（request url）、請求頭（request headers）、請求體（request body）

4.1、常用的請求方法：get、post

get請求的引數包含在url中，敏感資訊建議用post請求，會將資訊放在表單中

4.2請求頭：用來說明伺服器需要的資訊

cookies：為了辨別使用者進行會話跟蹤儲存在本地的資料，瀏覽器請求站點資訊的時候會在請求頭加上cookies資訊，伺服器就能識別使用者身份

referer：標記資訊**，可以做**跟蹤

user_agent：簡稱ua，可是使伺服器識別客戶使用的瀏覽器型別

4.3請求體

請求體的內容一般是post的表單資料

5、響應

5.1、響應狀態碼ststus code,200表示連線成功

5.2、響應體

爬蟲中要解析的就是響應體的內容

天蛛爬蟲學習筆記 Requests爬蟲例項

定義乙個爬蟲的通用框架 import requests defgethtmltext url 爬蟲通用框架,try 捕捉到錯誤後會執行except的語句 r requests.get url r.raise for status 返回值若為200，則表示正常訪問繼續執行，否則會返回httperro...

爬蟲基礎學習筆記 HTML

html頁面中，所有內容都包含在一對標籤內，標籤之間可以巢狀，標籤和標籤對應的內容共同組成html頁面。標籤定義的內容元素稱為節點，節點的相互巢狀形成了網頁的結構，稱為html dom樹。dom是w3c的標準，即文件物件模型，定義了訪問xml和html文件的標準，html dom就是針對html文件...

爬蟲學習筆記（二）http請求詳解

上篇部落格裡面寫了，爬蟲就是發http請求瀏覽器裡面開啟傳送的都是http請求然後獲取到response，咱們再從response裡面找到想要的資料，儲存到本地。咱們本章就來說一下什麼是http請求，它裡面都有哪些東西，我們在寫爬蟲的時候，怎麼http請求裡面哪些對我們的爬蟲有影響。咱們開啟乙個...

天蛛爬蟲學習筆記 HTTP基礎知識

天蛛爬蟲學習筆記 Requests爬蟲例項

爬蟲基礎學習筆記 HTML

爬蟲學習筆記（二）http請求詳解

相關推薦