py2.x:
urllib庫
urllin2庫
py3.x:
urllib庫
變化:在pytho2.x中使用import urllib2——-對應的,在python3.x中會使用import urllib.request,urllib.error。
在pytho2.x中使用import urllib——-對應的,在python3.x中會使用import urllib.request,urllib.error,urllib.parse。
在pytho2.x中使用import urlparse——-對應的,在python3.x中會使用import urllib.parse。
在pytho2.x中使用import urlopen——-對應的,在python3.x中會使用import urllib.request.urlopen。
在pytho2.x中使用import urlencode——-對應的,在python3.x中會使用import urllib.parse.urlencode。
在pytho2.x中使用import urllib.quote——-對應的,在python3.x中會使用import urllib.request.quote。
在pytho2.x中使用cookielib.cookiejar——-對應的,在python3.x中會使用http.cookiejar。
在pytho2.x中使用urllib2.request——-對應的,在python3.x中會使用urllib.request.request。
快速爬取乙個網頁
import urllib.request
file=urllib.request.urlopen('')
data=file.read() #讀取全部
dataline=file.readline() #讀取一行內容
fhandle=open("./1.html","wb") #將爬取的網頁儲存在本地
fhandle.write(data)
fhandle.close()
瀏覽器的模擬
應用場景:有些網頁為了防止別人惡意採集其資訊所以進行了一些反爬蟲的設定,而我們又想進行爬取。
cookie的使用
應用場景:爬取的網頁涉及登入資訊。訪問每乙個網際網路頁面,都是通過http協議進行的,而http協議是乙個無狀態協議,所謂的無狀態協議即無法維持會話之間的狀態。
#使用http.cookiejar.cookiejar()建立cookiejar物件
#使用httpcookieprocessor建立cookie處理器,並以其為引數構建opener物件
#將opener安裝為全域性
url2='' #開啟test2.html檔案,會發現此時會保持我們的登入資訊,為已登入狀態。也就是說,對應的登入狀態已經通過cookie儲存。
reponse2=urllib.request.urlopen(url)
fhandle2=open('./test2.html','wb')
fhandle2.write(reponse2.read())
fhandle2.close()
Python爬蟲之urllib模組2
python爬蟲之urllib模組2 pg 55,乙個待畢業待就業的二流大學生。看了一下上一節的反饋,有些同學認為這個沒什麼意義,也有的同學覺得太簡單,關於 beautifulsoup 和lxml 獲取後面的鏈結我們能不能如法炮製呢,我們先來試試。我們把 寫成下面那樣 然後我們現在來試試 結果我們發...
Python核心模組 urllib模組
現在python基本入門了,現在開始要進軍如何寫爬蟲了!先把最基本的urllib模組弄懂吧。開啟乙個url的方法,返回乙個檔案物件,然後可以進行類似檔案物件的操作。本例試著開啟google import urllib f urllib.urlopen firstline f.readline 讀取h...
python 網路程式設計urllib模組
一 操作網路傳送請求 from urllib.request import urlopen 傳送請求 from urllib.parse import urlencode 用來把字典形式轉換成k v形式 username dusir pwd 123456 get請求 url url1 usernan...