從零開始學Python 三(網路爬蟲)

2021-08-27 11:10:40 字數 1877 閱讀 3669

urllib庫是python的乙個操作url功能強大的庫,經常用在爬蟲程式中。使用上述**,我們便可以在程式中開啟並爬取網頁。

2.urllib.request.urlopen("")

使用urlopen方法,引數為想爬取的網頁。成功之後,把爬取的內容賦值給file變數。

另,讀取file資料有2種方法:

file.read() //讀取全部資料
file.readline()//讀取一行資料
3.handle=open("code/python/baidu.html","wb")

通過open函式開啟乙個檔案,並且以「wb」即二進位制寫入方式開啟,然後賦值給hadle變數。需要注意首先建立對應的資料夾和檔案,否則無法執行。錯誤如下:

traceback (most recent call last):

file

"", line 1, in

fhandle=open("

/code/python

","wb")

filenotfounderror: [errno 2] no such file or directory:

4.handle.write(data)

使用write()方法將data資料寫入檔案

開啟檔案顯示如下:

其實,上面5行**可以精簡為1行,功能不變但**更少:

">>> key="逃稅"

>>> key_code=urllib.request.quote(key)

>>> urllib.request.urlretrieve(url+key_code,"

code/python/baidu逃稅.html")

('code/python/baidu逃稅.html

', )

上面**有個關鍵點:url標準中只允許一部分ascii字元(字母、數字),其他的比如漢字不符合標準。因此不能直接在url後面拼接漢字,需要使用quote()方法進行編碼。相應的,如果需要對編碼的**進行解碼,可以使用unquote()方法。

最後,以乙個不完整的爬蟲程式結束。

可以看到,我們已經拿到了路徑,在瀏覽器上加上字首"http://"就可以開啟。

因此,程式邏輯如下:

具體**請等下期內容。

從零開始學Python

第三章 字典 1.建立字典 book 其中值可以是任意型別,可以是元組或者字典.2.dict函式建立字典 通過對映建立 book d book.dict 輸出d book 通過關鍵字建立 d dict name zq age 1 輸出d 3.字典的格式化字串 鍵 s 字典名 book name is...

從零開始學Python

第十一章 檔案操作 1.開啟檔案 用open 函式,直接用就可以。open name mode buffering 呼叫open 之後會返回乙個檔案物件,mode 模式,buffering 緩衝都是可以選擇的。f open r 檔案路徑 2.檔案模式 r 讀模式 w 寫模式 a 追加模式 b 二進位...

零開始學python 從零開始學Python

第1章 python入門 1 1 1 什麼是python 1 1 2 python語言有什麼特點 2 1 3 python可以幹什麼 4 練一練 5 第2章 準備開發環境 6 2 1 在windows上安裝python開發環境 6 2 2 選擇和安裝開發工具 11 練一練 17 第3章 基本概念 1...