python爬蟲（urllib簡介）

通過url開啟任意資源，官方鏈結

urllib模組提供乙個高階介面，可以在通過url在網上獲取資料。其中，urlopen()函式類似於內建函式open()，但接受的是url不是檔名。只能開啟用於讀取的url，不能任何查詢操作。

urllib.urlopen(url[, data[, prpxies[, context]]])

其中，url是**，data表示以post方式提交到url的資料，proxies用於設定**。

import urllib
print urllib.urlopen("").read()

urlopen提供如下方法：

read()、readline()、readlines()、fileno()、close() 這些方法具有與檔案物件相同的介面

info() 返回類mimetools的乙個例項。包含與url相關聯的元資訊的訊息。參見mimetools模組的描述。

etcode() 返回以響應傳送的http狀態碼，如果是http請求，200表示成功，404表示**未找到。不是http的請求，則不返回。

geturl() 返回頁面真實的url，有時伺服器會重定向到其他的url上，urlopen透明的處理這種情況，但有的操作也許需要真實url。

urllib.urlretrieve(url[, filename[, reporthook[, data]]])

複製乙個由url指向本地檔案的網路物件。

url = ""
local = "./bd.html"
urllib.urlretrieve(url, local)

urllib._urlopener

公共函式urlopen()和urlretrieve()建立乙個fancyurlopener類的例項，並使用它執行請求的操作。為了覆蓋這個功能，程式設計師可以建立乙個urlopener或fancyurlopener的子類，然後在呼叫所需函式之前，給urllib._urlopener分配乙個類的例項。

class
(urllib.fancyurlopener):
()urllib.urlcleanup()

其他一些方法：

通過python --version檢視當前預設的python版本。

版本2.7.9開始，對於https uris，urllib預設執行全部需要的證書和主機名的檢查。對於早於2.7.9的python版本，urllib不會驗證https uris的伺服器證書。

3.x以上的版本urllib和urllib2已經合併為乙個urllib庫。

參考：

（原位址找不到了）

python爬蟲筆記之urllib庫的簡單使用

1.urlopen import urllib.request response urllib.request.urlopen print response.read decode utf 8 print type response response是乙個httpresponse型別的物件，主要包含...

python 網路爬蟲 urllib

1.網域名稱與ip位址網域名稱 dns伺服器 ip位址你的電腦先把網域名稱傳給dns伺服器，通過dns伺服器找到網域名稱所對應的ip位址，在傳回你的電腦進行訪問。2.呼叫urllib進行爬取讀取資料 import urllib f urllib.urlopen print f.read 讀取狀...

Python爬蟲urllib筆記整合

程式一爬取post網頁檔案。第一步進行網頁爬取的關鍵在於了解網頁結構，清楚網頁找到自己需要的網頁內容一般指所在標籤，類別，樣式等是什麼本次程式是找到post表單所在位置並了解必須傳遞的引數是什麼。第二步匯入urllib的抓包 parse 引數名與表單中的name屬性一致，寫入表單傳遞引...

python爬蟲（urllib簡介）

python爬蟲筆記之urllib庫的簡單使用

python 網路爬蟲 urllib

Python爬蟲urllib筆記整合

相關推薦