mooc python網路資訊獲取第一周

2022-08-20 22:48:13 字數 2280 閱讀 6724

一、環境

idle,subline text,pycharm,anaconda & spyder。

二、requests庫

1.安裝

cmd:pip install requests

2.七方法

requests.request(method, url , **kwarge) 構造請求支撐以下各種方法的基礎方法,method :get post head put  patch delete options;

requests.get(url,params=none,**kwargs) 獲取html網頁的主要方法,對應與http的get;

requests.head(url,**kwargs) 獲取html網頁頭資訊的方法,對應與http的head;

requests.post(url,data=none,json=none,**kwargs) 向html網頁提交post請求的方法,對應與http的post;

requests.put(url,data=none,**kwargs) 向html網頁提交put請求的方法,對應與http的put;

requests.patch(url,data=none,**kwargs) 向html網頁提交區域性修改請求,對應與http的patch;

requests.delete(url,data=none,**kwargs) 向html網頁提交刪除請求,對應與http的delete

3.http對requests庫方法的變動:1.post 請求向url位置後的資源附加新的資料   2.put  請求向url的位置加入乙個新的資源,並覆蓋原來的url資源

4.requests.get(url,params=none,**kwargs)      params:url中的額外引數,字典或者位元組流格式   **kwargs:12個控制訪問的引數

5.最重要的兩個物件:request,response

6.response物件的屬性

r.status_code  http請求的返回狀態 200表成功 404表失敗;

r.text   http響應內容的字串形式;

r.encoding   從http header中猜測的相應內容編碼方式;

r.content http響應內容的二進位制形式;

7.requests庫返回的幾種異常

requests.httperror    http錯誤異常;

requests.url.required    url缺失異常;

requests.connectionerror   網路連線錯誤異常如:dns查詢失敗,拒絕連線等等;

requests.toomanyredireets  超過最大重定向次數 產生重定向異常;

requests.connecttimout   連線遠端伺服器超時異常;

requests.timeout    請求url超時,產生超時異常;

8.r.raise_for_status()   如果不是200,產生異常requests.httperror           能判斷response物件的狀態是不是200

9.**kwargs 可選的引數

params=字典或位元組序列 作為引數加到url中,並讓伺服器應答的時候和url一起答覆;

json=json格式的資料作為request的內容;

headers 定製訪問的url的http頭    可用來模擬不同的瀏覽器;

data=字典或位元組序列或檔案物件 作為request的內容;

cookies:字典或cookiejaar,request中的cookie;

auth:元組,支援http認證功能;

files:字典型別,傳輸檔案;

timeout 設定超時時間,秒為單位;

proxies字典型別,設定訪問**費伺服器,可以增加登陸認證

10.網路爬蟲的尺寸

爬網頁:小規模,資料量小,爬取速度不敏感,常用request庫

爬**:中規模,資料量較大,速度敏感,scrapy庫

爬全網:大規模,搜尋引擎,速度關鍵,定製開發。

11.爬蟲危害:騷擾問題,法律風險,隱私洩露

12.爬蟲的限制

開源審查:判斷user-agent進行限制,檢查來訪http協議頭的user-agent域,只響應相應瀏覽器或友好爬蟲的訪問;

發布公告:robots協議 告知所有爬蟲**的爬取策略,要求爬蟲遵守,robots協議(robots exclusion standard 網路爬蟲排除標準) 作用:**告知網路爬蟲哪些頁面可以抓取哪些不行  形式:在**根目錄下的robots.tet檔案。非強制性

小菜雞的程序~

MOOC Python網路爬蟲與資訊提取Week1

常見異常 response 返回所有的網頁內容 r.raise for status 如果不是200,產生異常requests.httperror import requests def gethtmltext url try r requests.get url,timeout 30 r.raie...

資訊保安產業頻獲政策扶持

17日出台的 資訊產業發展指南 大資料 十三五 產業發展規劃 軟體和資訊科技服務業 十三五 發展規劃 及 資訊通訊行業發展規劃 均提出要大力推動資訊保安產業發展,加強自主可控體系建設。資料顯示,去年1月至11月我國軟體和資訊科技服務業完成軟體業務收入43133 億元,同比增長14.8 軟體行業實現利...

個人資訊洩露可以獲的賠償

消費者權益保 實施條例 徵求意見稿 日前結束了公開徵求意見。在為期乙個月的徵求意見過程中,個人資訊保安如何保護 快遞丟失如何賠償 職業打假是否適用條例等引發關注。徵求意見稿對此做了怎樣的規定?我們一起來看一下。未經消費者同意不能打推銷 規定 徵求意見稿明確,經營者應當建立健全資訊保密和管理制度,確保...