python內建的http請求庫
urllib.request:請求模組
urllib.error:異常處理模組
urllib.parse:url解析模組
urllib.robotparser:robot.txt解析模組
內建函式
請求
1、傳送請求
urlopen(url,data=none,[timeout,]*)
注意:data型別需為bytes型別
響應
2、獲取響應內容
read() //返回為bytes
'utf-8')
3、獲取響應狀態碼、響應頭
response.status
response.getheaders()
4、新增headers
需要建立request物件
url='...'
headers=
data=
req = request.request(url=url,data=data,headers=headers,metgod='post') //建立物件
response=request.urlopen(req)
response.read().decode('utf8)
還可以通過request物件的add_header方法來新增headers
response=opener.open(url)異常處理
from urllib import request,error
try:
response = request.urlopen(url)
except error.urlerror as e:
print(e.reason)
url解析
urlparse
urllib.parse.urlparse(urlstring,scheme='',allow_fragments=true)
urlunparse:url 拼接
urljoin:合併url
urlencode:將字典物件轉換成url的get請求引數
python 爬蟲 urllib庫 學習筆記(一)
爬蟲對於金融二級市場投資來說是重要的工具,可以幫助我們高效的提取資料,方便我們之後進行量化投資需要的圖表生成,歷史回測,訊號發出等等工作。底層資料的價值決定了策略的價值,這是我認為的資料對於量化投資的重要性。我認為使用市面上可以免費獲得的資料庫中的資料,並不會使得基本面量化策略的效果得到改善。資料探...
urllib 和 urllib2 對比學習 筆記一
urlparse module 1.urlparse.urlunparse complex tuple into ure 2.urlparse split url into a fixed format.return tuple 3.urlparse.urljoin 合併網域名稱和根路徑 urlli...
Python爬蟲入門筆記 urllib庫的使用
1 直接訪問 import urllib2 url 直接請求 response urllib2.urlopen url 獲取狀態碼,如果是200表示成功 print response.getcode 列印 print response.read python語言就是這麼簡潔,幾行 就把網頁爬了下來,...