做模擬真實使用者向伺服器傳送請求前應該對http請求響應過程有乙個大致的了解
請求的內容一般分為四部分
1、http請求的方法或者動作,get或者post等
request method: post
2、請求位址url(你連url位址都沒有你請求什麼)
request url:
3、請求頭,包含客戶端環境資訊,身份驗證資訊
客戶端瀏覽器請求header(http request header)
accept 可接受的內容型別
accept-language 語言
accept-encoding 可接受的壓縮型別 gzip,deflate
4、請求體,即請求正文,請求正文可以包含客戶提交的查詢字元,表單資訊等等
一般情況下,一旦 web 伺服器向瀏覽器傳送了請求的資料,它就要關閉 tcp 連線,但是如果瀏覽器或者伺服器在其頭資訊加入了這行**:connection:keep-alive
tcp連線在傳送後將仍然保持開啟狀態,於是,瀏覽器可以繼續通過相同的連線傳送請求。保持連線節省了為每個請求建立新連線所需的時間,還節約了網路頻寬。
http響應的內容由三部分組成:
1、乙個數字與文字組成的狀態碼,用來顯示請求成功失敗資訊
status code: 200 ok
2、響應頭,響應頭與請求頭包含許多有用資訊,例如:伺服器型別、日期時間、內容型別和長度等。
伺服器端的響應header(response header)
connection:keep-alive( 針對該連線所預期的選項)
8( 當前內容的mime型別)
3、響應體,響應正文 爬蟲小專案
將爬取到的資料儲存在csv檔案中 由於習慣 作者會將獲取到的資料儲存 然後在儲存的檔案中進行匹配 這樣會降低程式執行時間 import requests from lxml import html from bs4 import beautifulsoup url headers res reque...
python2 7爬蟲實戰小專案
爬蟲原理和思想 本專案實現的基本目標 在捧腹網中,把搞笑的都爬下來,注意不需要爬取頭像的,同時,將命好名放在當前的img檔案中。爬蟲原理和思想 爬蟲涉及到額度基本知識 1 導入庫 模組 該 是用於讀取網頁 exp 使用urllib.urlopen 開啟捧腹網 使用read 讀取,如 比較龐大,也可以...
爬蟲小專案 京東月餅銷量分析
月餅銷量資料分析 開發環境 python3.7 pycharm selenium csv 開發工具 selenium工具的使用 結構化的資料解析 csv資料儲存 相容性 程式流程 import csv import time from selenium import webdriver 下面的 都是...