urllib庫是python的乙個操作url功能強大的庫,經常用在爬蟲程式中。使用上述**,我們便可以在程式中開啟並爬取網頁。
2.urllib.request.urlopen("")
使用urlopen方法,引數為想爬取的網頁。成功之後,把爬取的內容賦值給file變數。
另,讀取file資料有2種方法:
file.read() //讀取全部資料
file.readline()//讀取一行資料3.handle=open("code/python/baidu.html","wb")
通過open函式開啟乙個檔案,並且以「wb」即二進位制寫入方式開啟,然後賦值給hadle變數。需要注意首先建立對應的資料夾和檔案,否則無法執行。錯誤如下:
traceback (most recent call last):4.handle.write(data)file
"", line 1, in
fhandle=open("
/code/python
","wb")
filenotfounderror: [errno 2] no such file or directory:
使用write()方法將data資料寫入檔案
開啟檔案顯示如下:
其實,上面5行**可以精簡為1行,功能不變但**更少:
">>> key="逃稅"
>>> key_code=urllib.request.quote(key)
>>> urllib.request.urlretrieve(url+key_code,"
code/python/baidu逃稅.html")
('code/python/baidu逃稅.html
', )
上面**有個關鍵點:url標準中只允許一部分ascii字元(字母、數字),其他的比如漢字不符合標準。因此不能直接在url後面拼接漢字,需要使用quote()方法進行編碼。相應的,如果需要對編碼的**進行解碼,可以使用unquote()方法。
最後,以乙個不完整的爬蟲程式結束。
可以看到,我們已經拿到了路徑,在瀏覽器上加上字首"http://"就可以開啟。
因此,程式邏輯如下:
具體**請等下期內容。
從零開始學Python
第三章 字典 1.建立字典 book 其中值可以是任意型別,可以是元組或者字典.2.dict函式建立字典 通過對映建立 book d book.dict 輸出d book 通過關鍵字建立 d dict name zq age 1 輸出d 3.字典的格式化字串 鍵 s 字典名 book name is...
從零開始學Python
第十一章 檔案操作 1.開啟檔案 用open 函式,直接用就可以。open name mode buffering 呼叫open 之後會返回乙個檔案物件,mode 模式,buffering 緩衝都是可以選擇的。f open r 檔案路徑 2.檔案模式 r 讀模式 w 寫模式 a 追加模式 b 二進位...
零開始學python 從零開始學Python
第1章 python入門 1 1 1 什麼是python 1 1 2 python語言有什麼特點 2 1 3 python可以幹什麼 4 練一練 5 第2章 準備開發環境 6 2 1 在windows上安裝python開發環境 6 2 2 選擇和安裝開發工具 11 練一練 17 第3章 基本概念 1...