最近發現python的爬蟲比較容易實現,我是python零基礎,就瘋狂的搜尋資料,實現一下簡單的爬蟲,首先是登入爬蟲,找到我們學校的教務**,其中我遇到的第乙個難題就是驗證碼的獲取,因為是零基礎,所以參考一些教程。
就以黎明大學教務網為例,這個教務網的模板很多學校都在採用:
我就擷取表單的驗證碼部分即可。
align="center"
rowspan="3" >
id="imgcode"
src="../sys/validatecode.aspx"
onclick="changevalidatecode(this)"
alt="單擊可更換!"
style="cursor: pointer;">
看不清,則單擊!
td>
這裡就可以知道,位址就是../sys/validatecode.aspx
組合一下位址就是
也就是我們等一下要用到的位址了。
我們可以檢視一下那個網頁。
去檢視了一下那個位址
果不其然,都是亂碼,因為驗證碼分為兩種。
1)直接處理成jpg/gif/png或者其他格式,然後直接讀取到乙個位址。
2)接收使用者觸發,然後生成,再直接處理成影象,不讀取到乙個位址。
我們這裡是第二種,我們要自己來讀取他,到本地,再手動輸入驗證碼。
# -*- coding: utf-8 -*-
import urllib2
#驗證碼的處理#
#驗證碼生成頁面的位址#
im_url = ''
#讀取驗證碼#
im_data = urllib2.urlopen(im_url).read()
#開啟乙個code.png檔案在d盤,沒有的話自動生成#
f=open('d:\\code.png','wb')
#寫入內容#
f.write(im_data)
#關閉檔案#
f.close()
這裡包括兩個部分:
1)開啟那個生成驗證碼的頁面,讀取
我們這裡的位址是可以隨便寫的,儲存在你想儲存的地方。
到這裡我們就完成了驗證碼的一小部分。
by–lodog
python爬蟲學習日記 20180106
1.建立爬蟲工程 scrapy startproject name 2.定義item item是爬蟲的資料模型的 item.py 3.新建spider scrapy genspider 4.編寫爬蟲檔案 主要是start urls和def parse解析方法 5.在settings.py中修改use...
python學習日記 1
1.首先確保電腦連上網路,然後依次選擇 help eclipse marketplace 2.載入完成以後在搜尋框中輸入python,我這裡選擇pydev,由於我已經安裝過所以是update,未安裝過的話會顯示install 選擇install 5.安裝完成以後回到eclipse中進行設定,依次選擇...
python學習日記 1
字元編碼問題ascii 編碼 只能編碼英文,乙個位元組表示乙個字元。unicode 編碼 支援所有語言,一般是兩個位元組表示乙個字元,容易造成浪費。utf 8 b編碼 是一種 可變長度 編碼,會根據字元型別,把乙個unicode字元編碼成1 6個位元組,英文通常是乙個位元組,漢字通常是四個位元組,越...