Urllib的使用（一）

1,使用urllib爬取網頁眉先需要匯入對應的模組

import urllib.request

file=urllib.request.urlopean("")

3,讀取網頁內容

data=file.read()#讀取檔案的全部內容，與readlines不同的是，read會把讀取到的內容賦給乙個字串變數 datalines=file.readlines()#讀取檔案的全部內容，與read不同的是，readlines會把讀取到的內容賦給乙個列表變數，若要讀取全部內容，推薦使用這種方式

dataline=file.readline()#讀取檔案的一行內容

4，爬取到的內容儲存到本地

fa=open("d:/","wb")#本地位址
fa.write(data)
fa.close()

內容儲存到本地

二，除了這種方法之外，我們還可以使用urllib.request裡面的urlretrieve()函式直接將對應資訊寫入本地檔案，格式為

filename=urllib.request.urlretrieve("http:www.baidu.com",filename="d/")

執行成功後，內容儲存到本地。

urlretrieve執行過程中，會產生一些快取，如果我們想清除這些快取資訊，可以使用urlcleanup（）進行清除，輸入如下**即可清除快取。

urllib.request.urlcleanup()

urllib模組的使用

urllib.request.urlopen url,data none,timeout,cafile none,capath none,cadefault false,context none 直接用urllib.request模組的urlopen 獲取頁面,page的資料資料格式為bytes型別...

urllib模組的使用

url 需要開啟的 data post提交的資料 timeout 設定的訪問超時時間直接用urllib.request模組的urlopen 獲取頁面，page的資料格式為bytes型別，需要decode 解碼，轉換成str型別。1 from urllib import request 2 res...

urllib庫的使用

import urllib.request data urllib.request.urlopen print urlopen原始碼不支援新增headers 請求頭部 def urlopen url,data none timeout socket.global default timeout,c...

Urllib的使用（一）

urllib模組的使用

urllib模組的使用

urllib庫的使用

相關推薦