http(超文字傳輸協議)
通常http用於傳輸文字資訊,當然也可以傳輸二進位制或者各種流式檔案。
通訊原理如下:
1.建立tcp會話連線,通常指一次socket連線;
2.client端向server端傳送請求命令,即http請求頭;
3.server端響應client端請求,生成http返回頭,以及返回的資料,傳送client端;
4.通訊結束,釋放本次連線。
http請求頭
http請求分為兩部分:
1.請求內容資訊: method request-uri http-versioncrlf
method表示對於request-uri完成的方法,這個欄位是大小寫敏感的
http-version:表示支援的http版本。
2.請求實體引數: 實體名:實體值
可用」:」或者空格或者製表符隔開
注意後面補上**和測試結果
嘗試寫個爬蟲(1)
背景知識 url uniform resource locator 也是平常所說的網頁位址。url是標準的internet協議,由協議型別,主機名,資源路徑等組成。格式為 protocol hostname port path parameters query protocal 是協議型別,最常用的...
嘗試寫個爬蟲(2)
爬蟲的工作原理 主要技術 1.獲得url,解析出主機,埠以及資源路徑 2.呼叫dns解析程式,將url轉換成ip位址 4.迴圈獲得伺服器端的返回資訊,並儲存到本地。dns 網域名稱系統 用於網路資源的命名管理,將internet上的網域名稱與真實的ip位址進行一對一或一對多的對映,使用者可以通過輸入...
爬蟲初學,寫個簡單的爬蟲
首先構造一下請求頭,呼叫request模組傳送請求,def request data url headers try response requests.get url,headers headers if response.status code 200 return response.conte...