python爬蟲學習日記(1) 獲取驗證碼

2021-07-03 00:25:40 字數 1180 閱讀 5650

最近發現python的爬蟲比較容易實現,我是python零基礎,就瘋狂的搜尋資料,實現一下簡單的爬蟲,首先是登入爬蟲,找到我們學校的教務**,其中我遇到的第乙個難題就是驗證碼的獲取,因為是零基礎,所以參考一些教程。

就以黎明大學教務網為例,這個教務網的模板很多學校都在採用:

我就擷取表單的驗證碼部分即可。

align="center"

rowspan="3" >

id="imgcode"

src="../sys/validatecode.aspx"

onclick="changevalidatecode(this)"

alt="單擊可更換!"

style="cursor: pointer;">

看不清,則單擊!

td>

這裡就可以知道,位址就是../sys/validatecode.aspx

組合一下位址就是

也就是我們等一下要用到的位址了。

我們可以檢視一下那個網頁。

去檢視了一下那個位址

果不其然,都是亂碼,因為驗證碼分為兩種。

1)直接處理成jpg/gif/png或者其他格式,然後直接讀取到乙個位址。

2)接收使用者觸發,然後生成,再直接處理成影象,不讀取到乙個位址。

我們這裡是第二種,我們要自己來讀取他,到本地,再手動輸入驗證碼。

# -*- coding: utf-8 -*-

import urllib2

#驗證碼的處理#

#驗證碼生成頁面的位址#

im_url = ''

#讀取驗證碼#

im_data = urllib2.urlopen(im_url).read()

#開啟乙個code.png檔案在d盤,沒有的話自動生成#

f=open('d:\\code.png','wb')

#寫入內容#

f.write(im_data)

#關閉檔案#

f.close()

這裡包括兩個部分:

1)開啟那個生成驗證碼的頁面,讀取

我們這裡的位址是可以隨便寫的,儲存在你想儲存的地方。

到這裡我們就完成了驗證碼的一小部分。

by–lodog

python爬蟲學習日記 20180106

1.建立爬蟲工程 scrapy startproject name 2.定義item item是爬蟲的資料模型的 item.py 3.新建spider scrapy genspider 4.編寫爬蟲檔案 主要是start urls和def parse解析方法 5.在settings.py中修改use...

python學習日記 1

1.首先確保電腦連上網路,然後依次選擇 help eclipse marketplace 2.載入完成以後在搜尋框中輸入python,我這裡選擇pydev,由於我已經安裝過所以是update,未安裝過的話會顯示install 選擇install 5.安裝完成以後回到eclipse中進行設定,依次選擇...

python學習日記 1

字元編碼問題ascii 編碼 只能編碼英文,乙個位元組表示乙個字元。unicode 編碼 支援所有語言,一般是兩個位元組表示乙個字元,容易造成浪費。utf 8 b編碼 是一種 可變長度 編碼,會根據字元型別,把乙個unicode字元編碼成1 6個位元組,英文通常是乙個位元組,漢字通常是四個位元組,越...