一、環境
idle,subline text,pycharm,anaconda & spyder。
二、requests庫
1.安裝
cmd:pip install requests
2.七方法
requests.request(method, url , **kwarge) 構造請求支撐以下各種方法的基礎方法,method :get post head put patch delete options;
requests.get(url,params=none,**kwargs) 獲取html網頁的主要方法,對應與http的get;
requests.head(url,**kwargs) 獲取html網頁頭資訊的方法,對應與http的head;
requests.post(url,data=none,json=none,**kwargs) 向html網頁提交post請求的方法,對應與http的post;
requests.put(url,data=none,**kwargs) 向html網頁提交put請求的方法,對應與http的put;
requests.patch(url,data=none,**kwargs) 向html網頁提交區域性修改請求,對應與http的patch;
requests.delete(url,data=none,**kwargs) 向html網頁提交刪除請求,對應與http的delete
3.http對requests庫方法的變動:1.post 請求向url位置後的資源附加新的資料 2.put 請求向url的位置加入乙個新的資源,並覆蓋原來的url資源
4.requests.get(url,params=none,**kwargs) params:url中的額外引數,字典或者位元組流格式 **kwargs:12個控制訪問的引數
5.最重要的兩個物件:request,response
6.response物件的屬性
r.status_code http請求的返回狀態 200表成功 404表失敗;
r.text http響應內容的字串形式;
r.encoding 從http header中猜測的相應內容編碼方式;
r.content http響應內容的二進位制形式;
7.requests庫返回的幾種異常
requests.httperror http錯誤異常;
requests.url.required url缺失異常;
requests.connectionerror 網路連線錯誤異常如:dns查詢失敗,拒絕連線等等;
requests.toomanyredireets 超過最大重定向次數 產生重定向異常;
requests.connecttimout 連線遠端伺服器超時異常;
requests.timeout 請求url超時,產生超時異常;
8.r.raise_for_status() 如果不是200,產生異常requests.httperror 能判斷response物件的狀態是不是200
9.**kwargs 可選的引數
params=字典或位元組序列 作為引數加到url中,並讓伺服器應答的時候和url一起答覆;
json=json格式的資料作為request的內容;
headers 定製訪問的url的http頭 可用來模擬不同的瀏覽器;
data=字典或位元組序列或檔案物件 作為request的內容;
cookies:字典或cookiejaar,request中的cookie;
auth:元組,支援http認證功能;
files:字典型別,傳輸檔案;
timeout 設定超時時間,秒為單位;
proxies字典型別,設定訪問**費伺服器,可以增加登陸認證
10.網路爬蟲的尺寸
爬網頁:小規模,資料量小,爬取速度不敏感,常用request庫
爬**:中規模,資料量較大,速度敏感,scrapy庫
爬全網:大規模,搜尋引擎,速度關鍵,定製開發。
11.爬蟲危害:騷擾問題,法律風險,隱私洩露
12.爬蟲的限制
開源審查:判斷user-agent進行限制,檢查來訪http協議頭的user-agent域,只響應相應瀏覽器或友好爬蟲的訪問;
發布公告:robots協議 告知所有爬蟲**的爬取策略,要求爬蟲遵守,robots協議(robots exclusion standard 網路爬蟲排除標準) 作用:**告知網路爬蟲哪些頁面可以抓取哪些不行 形式:在**根目錄下的robots.tet檔案。非強制性
小菜雞的程序~
MOOC Python網路爬蟲與資訊提取Week1
常見異常 response 返回所有的網頁內容 r.raise for status 如果不是200,產生異常requests.httperror import requests def gethtmltext url try r requests.get url,timeout 30 r.raie...
資訊保安產業頻獲政策扶持
17日出台的 資訊產業發展指南 大資料 十三五 產業發展規劃 軟體和資訊科技服務業 十三五 發展規劃 及 資訊通訊行業發展規劃 均提出要大力推動資訊保安產業發展,加強自主可控體系建設。資料顯示,去年1月至11月我國軟體和資訊科技服務業完成軟體業務收入43133 億元,同比增長14.8 軟體行業實現利...
個人資訊洩露可以獲的賠償
消費者權益保 實施條例 徵求意見稿 日前結束了公開徵求意見。在為期乙個月的徵求意見過程中,個人資訊保安如何保護 快遞丟失如何賠償 職業打假是否適用條例等引發關注。徵求意見稿對此做了怎樣的規定?我們一起來看一下。未經消費者同意不能打推銷 規定 徵求意見稿明確,經營者應當建立健全資訊保密和管理制度,確保...