嘗試寫個爬蟲(3)

2021-06-18 03:48:17 字數 546 閱讀 1985

http(超文字傳輸協議)

通常http用於傳輸文字資訊,當然也可以傳輸二進位制或者各種流式檔案。

通訊原理如下:

1.建立tcp會話連線,通常指一次socket連線;

2.client端向server端傳送請求命令,即http請求頭;

3.server端響應client端請求,生成http返回頭,以及返回的資料,傳送client端;

4.通訊結束,釋放本次連線。

http請求頭

http請求分為兩部分:

1.請求內容資訊:  method   request-uri   http-versioncrlf

method表示對於request-uri完成的方法,這個欄位是大小寫敏感的

http-version:表示支援的http版本。

2.請求實體引數:  實體名:實體值

可用」:」或者空格或者製表符隔開

注意後面補上**和測試結果

嘗試寫個爬蟲(1)

背景知識 url uniform resource locator 也是平常所說的網頁位址。url是標準的internet協議,由協議型別,主機名,資源路徑等組成。格式為 protocol hostname port path parameters query protocal 是協議型別,最常用的...

嘗試寫個爬蟲(2)

爬蟲的工作原理 主要技術 1.獲得url,解析出主機,埠以及資源路徑 2.呼叫dns解析程式,將url轉換成ip位址 4.迴圈獲得伺服器端的返回資訊,並儲存到本地。dns 網域名稱系統 用於網路資源的命名管理,將internet上的網域名稱與真實的ip位址進行一對一或一對多的對映,使用者可以通過輸入...

爬蟲初學,寫個簡單的爬蟲

首先構造一下請求頭,呼叫request模組傳送請求,def request data url headers try response requests.get url,headers headers if response.status code 200 return response.conte...