疫情期間在家閒著沒事,找到本科時的課本,隨手翻了翻還是挺有意思的。在此將自己重新學習的新感受記錄下來,方便以後查閱,如能幫助到廣大的初學者朋友,將是莫大的榮幸。
urllib是乙個包,裡邊總共有四個模組。第乙個模組urllib.request是最複雜的也是最重要的,因為它包含了對伺服器請求的發出、跳轉、**和安全等各個方面。
先來體驗一下,通過urllib.request.urlopen()函式就可以訪問網頁了,以編輯時的網頁位址為例:
import urllib.request#匯入urllib.request模組
response = urllib.request.urlopen(
"")#用於實現對目標url的訪問
html = response.read(
)print
(html)
執行一下,得到如下結果:
細心的朋友們可能發現了,這跟我們在瀏覽器上使用「審查元素」或者按f12所看到的內容不太一樣。
其實python爬取的內容是以utf-8編碼的bytes物件,要還原為帶中文的html**,需要對其進行解碼,將它變成unicode編碼:
html = html.decode(
"utf-8"
)print
(html)
轉碼之後的內容
以上就是python爬蟲實戰(1)———訪問網頁及更改編碼格式的全部內容啦,第一次寫部落格,還很生疏,希望各位看官老爺們提出批評指正,感激不盡
python爬蟲實戰
python python基礎 python快速教程 python學習路線圖 python大資料學習之路 python爬蟲實戰 python pandas技巧系 量化小講堂 python機器學習入門資料梳理 學習群 大資料 python資料探勘2 323876621 r r語言知識體系 怎樣學習r ...
python網路爬蟲實戰1 基礎篇
很多資料並沒有存在自家的資料庫中,在大資料時代,很多的資料都放在網路上,以網頁的形式呈現給大家。我們如何將這些沒有固定格式的非結構化資料批量從網路上拷貝下來,並提供給後來者進行資料價值的挖掘,是一件非常有意義的事情。這裡,我們必須借助etl extract,transformation,loadin...
python 網頁訪問
1 在python3中只有urllib乙個庫,這裡面整合了原來的urllib和urllib2 2import urllib.request34 定義乙個request物件,傳入乙個url完整位址,並用request函式。5 request urllib.request.request 67 開啟ur...