Urllib的使用(一)

2021-08-25 14:12:09 字數 832 閱讀 5340

1,使用urllib爬取網頁眉先需要匯入對應的模組

import urllib.request
file=urllib.request.urlopean("")
3,讀取網頁內容

data=file.read()#讀取檔案的全部內容,與readlines不同的是,read會把讀取到的內容賦給乙個字串變數

datalines=file.readlines()#讀取檔案的全部內容,與read不同的是,readlines會把讀取到的內容賦給乙個列表變數,若要讀取全部內容,推薦使用這種方式

dataline=file.readline()#讀取檔案的一行內容

4,爬取到的內容儲存到本地

fa=open("d:/","wb")#本地位址

fa.write(data)

fa.close()

內容儲存到本地

二,除了這種方法之外,我們還可以使用urllib.request裡面的urlretrieve()函式直接將對應資訊寫入本地檔案,格式為

filename=urllib.request.urlretrieve("http:www.baidu.com",filename="d/")
執行成功後,內容儲存到本地。

urlretrieve執行過程中,會產生一些快取,如果我們想清除這些快取資訊,可以使用urlcleanup()進行清除,輸入如下**即可清除快取。

urllib.request.urlcleanup()

urllib模組的使用

urllib.request.urlopen url,data none,timeout,cafile none,capath none,cadefault false,context none 直接用urllib.request模組的urlopen 獲取頁面,page的資料資料格式為bytes型別...

urllib模組的使用

url 需要開啟的 data post提交的資料 timeout 設定 的訪問超時時間 直接用urllib.request模組的urlopen 獲取頁面,page的資料格式為bytes型別,需要decode 解碼,轉換成str型別。1 from urllib import request 2 res...

urllib庫的使用

import urllib.request data urllib.request.urlopen print urlopen原始碼 不支援新增headers 請求頭部 def urlopen url,data none timeout socket.global default timeout,c...