廢話不多說直接上**,感興趣的小夥伴,可以開啟注釋測試哦。
import urllib.request
url = ''
response = urllib.request.urlopen(url=url) #第乙個引數是要開啟的url 第二個是data表示post請求時 使用的
# print(type(response)) #返回的是乙個httpresponse物件
# print(response.read()) #讀取了所有網頁的內容 包括換行符和製表符,獲取的二進位制資料
# print(response.read().decode('utf-8')) #解碼後進行輸出 #字串-》位元組:編碼 encode() 位元組-》字串:解碼 decode()
# print(response.readline()) #讀取一行
# print(response.readlines()) #讀取全部返回乙個列表
# print(response.getheaders()) #返回乙個響應頭資訊,列表裡面有元組
# urllib.parse #處理url的urllib.parse.urlencode 介紹post請求的時候再說這個函式
#為什麼要編碼,因為瀏覽器並不能識別你請求裡面的中文字元
# 編碼
# string = urllib.parse.quote('狗蛋&password=123')
# print(string)
#解碼# string = urllib.parse.unquote('http%3a')
# print(string)
在來個稍微複雜一點點的,告訴你怎麼忽略ssl證書進行訪問。
import urllib.request#忽略ssl證書
#構建乙個請求
# repuest = urllib.request.request(url=url,headers=headers)
# 第二種方式
repuest = urllib.request.request(url=url)
#傳送請求,還是使用urlopen方法,將請求寫入到第乙個引數中即可
reponse = urllib.request.urlopen(repuest)
print(reponse.read().decode('utf8'))
爬蟲 Python爬蟲學習筆記之Urllib庫
1.urllib.request開啟和讀取url 2.urllib.error包含urllib.request各種錯誤的模組 3.urllib.parse解析url 4.urllib.robotparse解析 robots.txt檔案 傳送get請求 引入urlopen庫 用於開啟網頁 from u...
python3爬蟲之開篇
寫在前面的話 折騰爬蟲也有一段時間了,從一開始的懵懵懂懂,到現在的有一定基礎,對於這一路的跌跌撞撞,個人覺得應該留下一些文本性的東西,畢竟好記性不如爛筆頭,而且畢竟這是吃飯的傢伙,必須用心對待才可以,從今天起,我將會把關於爬蟲的東西進行乙個整理,以供後期的查閱,同時也想將自己的一點點經驗分享給大家。...
python3爬蟲實戰(3)
今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...