爬蟲第二課 handler,cookie

2021-08-05 21:39:10 字數 1182 閱讀 3015

handler

import urllib.request

proxy_handler = urllib.request.proxyhandler()

opener = urllib.request.build_opener(proxy_handler)

response = opener.open('')

print(response.read())

在urllib2包中有proxyhandler類,通過此類可以設定**訪問網頁

cookie的使用

用 python 來登入**, 用cookies記錄登入資訊, 然後就可以抓取登入之後才能看到的資訊。

什麼是cookies?

cookie,指某些**為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料(通常經過加密)。

比如說有些**需要登入後才能訪問某個頁面,在登入之前,你想抓取某個頁面內容是不允許的。那麼我們可以利用urllib庫儲存我們登入的cookie,然後再抓取其他頁面就達到目的了。

opener的概念

當你獲取乙個url你使用乙個opener(乙個urllib2.openerdirector的例項)。在前面,我們都是使用的預設的opener,也就是urlopen。

urlopen是乙個特殊的opener,可以理解成opener的乙個特殊例項,傳入的引數僅僅是url,data,timeout。

如果我們需要用到cookie,只用這個opener是不能達到目的的,所以我們需要建立更一般的opener來實現對cookie的設定。

cookielib

cookielib模組的主要作用是提供可儲存cookie的物件,以便於與urllib2模組配合使用來訪問internet資源。cookielib模組非常強大,我們可以利用本模組的cookiejar類的物件來捕獲cookie並在後續連線請求時重新傳送,比如可以實現模擬登入功能。該模組主要的物件有cookiejar、filecookiejar、mozillacookiejar、lwpcookiejar。

它們的關係:cookiejar —-派生—->filecookiejar  —-派生—–>mozillacookiejar和lwpcookiejar

爬蟲第二課requests模組

斐波那契數列指的是這樣乙個數列 1 1 2 3 5 8 13 21 34 在數學上,斐波那契數列以如下被以遞推的方法定義 f 1 1,f 2 1,f n f n 1 f n 2 n 3,n n def f n if n 1 or n2 return 1 return f n 1 f n 2 求乙個l...

第二課 安裝PHP

為什麼要安裝php?php是伺服器端解析程式,一般執行在網路伺服器上。而編寫php語言的程式我們一般是在自己的個人電腦上完成,然後拿到伺服器上除錯。所以,學習php首先要讓我們的個人電腦模擬伺服器執行環境,讓php能象在伺服器上一樣在我們的個人電腦上執行。這就是為什麼要安裝配置php的原因。安裝配置...

csdn之旅 第二課

1.html標題的標籤 1 注意 只能到,在往後就沒有作用了。2 標籤特點 可以區別其他文字,比如可以加粗 效果圖如 笑對生活!笑對生活!笑對生活!笑對生活!改變字型大小 可以自動換行 2.html段落標記 用元素 注意 標籤和標籤之間的關係 可以巢狀使用 但不可以交叉 3.html常用標記 單標記...