通過url開啟任意資源,官方鏈結
urllib模組提供乙個高階介面,可以在通過url在網上獲取資料。其中,urlopen()函式類似於內建函式open(),但接受的是url不是檔名。只能開啟用於讀取的url,不能任何查詢操作。
urllib.urlopen(url[, data[, prpxies[, context]]])
其中,url是**,data表示以post方式提交到url的資料,proxies用於設定**。
import urllib
print urllib.urlopen("").read()
urlopen提供如下方法:
read()、readline()、readlines()、fileno()、close() 這些方法具有與檔案物件相同的介面
info() 返回類mimetools的乙個例項。包含與url相關聯的元資訊的訊息。參見mimetools模組的描述。
etcode() 返回以響應傳送的http狀態碼,如果是http請求,200表示成功,404表示**未找到。不是http的請求,則不返回。
geturl() 返回頁面真實的url,有時伺服器會重定向到其他的url上,urlopen透明的處理這種情況,但有的操作也許需要真實url。
urllib.urlretrieve(url[, filename[, reporthook[, data]]])
複製乙個由url指向本地檔案的網路物件。
url = ""
local = "./bd.html"
urllib.urlretrieve(url, local)
urllib._urlopener
公共函式urlopen()和urlretrieve()建立乙個fancyurlopener類的例項,並使用它執行請求的操作。為了覆蓋這個功能,程式設計師可以建立乙個urlopener或fancyurlopener的子類,然後在呼叫所需函式之前,給urllib._urlopener分配乙個類的例項。
class
(urllib.fancyurlopener):
()urllib.urlcleanup()
其他一些方法:
通過python --version
檢視當前預設的python版本。
版本2.7.9開始,對於https uris,urllib預設執行全部需要的證書和主機名的檢查。對於早於2.7.9的python版本,urllib不會驗證https uris的伺服器證書。
3.x以上的版本urllib和urllib2已經合併為乙個urllib庫。
參考:
(原位址找不到了)
python爬蟲筆記之urllib庫的簡單使用
1.urlopen import urllib.request response urllib.request.urlopen print response.read decode utf 8 print type response response是乙個httpresponse型別的物件,主要包含...
python 網路爬蟲 urllib
1.網域名稱與ip位址 網域名稱 dns伺服器 ip位址 你的電腦先把網域名稱傳給dns伺服器,通過dns伺服器找到網域名稱所對應的ip位址,在傳回你的電腦進行訪問。2.呼叫urllib進行爬取 讀取資料 import urllib f urllib.urlopen print f.read 讀取狀...
Python爬蟲urllib筆記整合
程式一 爬取post網頁檔案。第一步 進行網頁爬取的關鍵在於了解網頁結構,清楚網頁 找到自己需要的網頁內容 一般指所在標籤,類別,樣式等 是什麼 本次程式是找到post表單所在位置並了解必須傳遞的引數是什麼。第二步 匯入urllib的抓包 parse 引數名與表單中的name屬性一致,寫入表單傳遞引...