1urllib.request模組
方法//需要新增cookie和data或者headers時候
//需要先收集乙個響應物件】
關鍵字引數); ///因為urlopen()不支援重構
1 urllib.request.urlopen(**(需要新增cookie和data或者headers時候需要放乙個響應物件))
2 response.read() ------>返回乙個位元組流
2 response.read().decode(『utf-8』) ------>返回乙個字串
響應物件的方法
response.read() —>讀取伺服器響應的內容
response.getcode—>返回http的響應碼
response.geturl---->返回實際資料的url(防止重定向)
2urllinb.parse模組
urlencode(字典)-------->返回 鍵=值(十六進製制)&下乙個鍵=值(十六進製制)
quote(字串) (這個⾥⾯的引數是個字串)–>把字串轉換為十六進製制返回
3requests
url =
'**'
# formdata 裡面的資料
data =
requests.post(url,data=data)
5 設定**ip 就是更改請求ip位址防止ip被封
使⽤requests新增**只需要在請求⽅法中(get/post)傳遞proxies引數就
可以了6 cookie 和ip一樣 新增引數就可以
7 ssl證書不信任**
res = requests.get(url, verify=false)
verify=false 的意思是跳過ssl認證
爬蟲學習第二天
概念 乙個基於網路請求的模組,作用就是模擬瀏覽器發起請求 編碼流程 制定url 進行請求的傳送 獲取響應資料 爬取到的資料 持久化儲存 制定url url 傳送請求,返回值是乙個響應物件 response requests.get url url 獲取相應,text返回的是字串形式的相應資料 pag...
爬蟲學習第二天
全稱網路爬蟲排除標準。作用 告知網路爬蟲哪些頁面可以爬取,哪些不可以。形式 在網路根目錄下的robots.txt檔案。ex.檢視京東 的robots.txt檔案 爬蟲應該自動識別robots.txt檔案,再進行內容爬取。顯示這個商品的資訊 import requests url try r requ...
爬蟲第二天
作用 網路使用者去取得網路信任 1.突破自身ip限制,去訪問一些不能訪問的站點 2.提高網路速度,服務通過有比較大的硬碟快取區,當外界資訊訪問通過後,將資訊儲存在緩衝區,其他使用者訪問相同資訊,直接在緩衝區拿 3.隱藏真實ip,對於爬蟲來說為了隱藏自身ip,防止自身ip被封鎖 爬蟲 分類 1.ftp...