之前在用python爬取前程無憂的招聘職位時,用到了模擬登入的知識點,這裡就簡單地列一下相關的知識點,同時列一下目前對驗證碼識別的一點解決方法
一、首先簡單描述下爬取職位的流程。
1、首先模擬登入
2、在搜尋頁面搜尋某一職位,抓包得出該get報文的形式,得出的職位會包含多個頁面,所以我們需要抓取共包含了幾個頁面,並對多個頁面進行分別抓取、
3、對每個職位,進行職位名稱,簡介,地名,薪資,公司,公司規模,職位資訊,公司福利等相關資訊的爬取,需要用到多個正則去匹配
二、首先說一下模擬登入,這裡用到的是requests
指令碼如下:
先request 發出乙個post報文,帶上登入的使用者名稱和密碼,以及head頭,post會返回乙個html物件,該物件包含此次登陸的cookie
之後,傳送其他報文時,只需要在傳送的報文中新增cookies=html.cookies即可帶上cookies,從而在伺服器端完成對登陸的認證。
hea =
url = 『
data =
loginhtml = requests.post(url,data = data,headers = hea,verify=false)
url2 = 『測試工程師&keywordtype=2&lang=c&stype=2&workyear=99&cotype=99°reefrom=99&jobterm=01&companysize=99&fromtype=1』
head1 =
data1 =
scorehtml = requests.get(url2,headers = head1,verify=false,cookies = loginhtml.cookies)
hh=scorehtml.text.encode(scorehtml.encoding)
dd=open(『job.txt』,』wb』)
dd.write(hh)
dd.close()
二、說一下驗證碼識別:
在這乙個指令碼中沒有涉及到驗證碼的識別,但在很多時候都會用到。
這裡利用到pytesser和pillow(win7 64位)
text = pytesser.image_file_to_string(fname)
會得到相應的驗證碼的txt,然後對該text做一些處理,如回車,空格替換之類的,即可。
驗證碼檢查curl 模擬登入
這幾周一直在研究驗證碼檢查之類的問題,上午正好有機會和大家共享一下.更多原創文章 請存眷 美公網世界 模擬登陸 126郵箱 人人網等 根據需要自行修改哈,如下 view plain copy to clipboard print?模擬登陸 驗證碼的 首先獲得驗證碼的cookie define scr...
登入驗證碼
生成驗證碼 指定驗證碼的長度 public static string createvalidatecode int length 生成隨機數字 for int i 0 i length i 抽取隨機數字 for int i 0 i length i 生成驗證碼 for int i 0 i leng...
python帶驗證碼登入
本次登入的是中國石油大學acm的oj 管理員不要打我 原型是hustoj,選擇的原因是驗證碼比較簡單,純數字。實際上利用了驗證碼頁面和登入頁面cookie的一致。但是在順序上我們需要先開啟驗證碼頁面,有興趣可以簡單測試一下 1.開啟登入頁面 不要關閉 3.重新整理位址,一般來說驗證碼會變 4.用那個...