1,使用urllib爬取網頁眉先需要匯入對應的模組
import urllib.request
file=urllib.request.urlopean("")
3,讀取網頁內容
data=file.read()#讀取檔案的全部內容,與readlines不同的是,read會把讀取到的內容賦給乙個字串變數
datalines=file.readlines()#讀取檔案的全部內容,與read不同的是,readlines會把讀取到的內容賦給乙個列表變數,若要讀取全部內容,推薦使用這種方式
dataline=file.readline()#讀取檔案的一行內容
4,爬取到的內容儲存到本地
fa=open("d:/","wb")#本地位址
fa.write(data)
fa.close()
內容儲存到本地
二,除了這種方法之外,我們還可以使用urllib.request裡面的urlretrieve()函式直接將對應資訊寫入本地檔案,格式為
filename=urllib.request.urlretrieve("http:www.baidu.com",filename="d/")
執行成功後,內容儲存到本地。
urlretrieve執行過程中,會產生一些快取,如果我們想清除這些快取資訊,可以使用urlcleanup()進行清除,輸入如下**即可清除快取。
urllib.request.urlcleanup()
urllib模組的使用
urllib.request.urlopen url,data none,timeout,cafile none,capath none,cadefault false,context none 直接用urllib.request模組的urlopen 獲取頁面,page的資料資料格式為bytes型別...
urllib模組的使用
url 需要開啟的 data post提交的資料 timeout 設定 的訪問超時時間 直接用urllib.request模組的urlopen 獲取頁面,page的資料格式為bytes型別,需要decode 解碼,轉換成str型別。1 from urllib import request 2 res...
urllib庫的使用
import urllib.request data urllib.request.urlopen print urlopen原始碼 不支援新增headers 請求頭部 def urlopen url,data none timeout socket.global default timeout,c...