最近專案中需要用到公積金相關的資料,但是公積金那邊又沒有提供相關的開放介面供呼叫,因此動手把公積金的網頁抓下來對資料進行解析,拿到資料。
廢話不多說,以昆明公積金為例進行分析下。
準備:1.昆明公積金官網:
2.抓包工具:httpwatch(fiddler)
4.html解析jar包:
一般**抓資料流程分析
一般的**的流程都是這樣的,我們想抓公積金的資料同樣也是這個流程,所以要抓取資料必須要登入的,但是登入就要有驗證碼的,這樣看起來難點就在模擬登入了。
用httpwatch抓包驗證了下,想拿到公積金賬戶資訊除了必要的引數之外,還需要乙個cookie。
這裡我把爬公積金流程描述下:
1. 呼叫獲取驗證碼介面拿到sessionid
2.呼叫登入介面登入,這裡除了登入要傳的引數外,還需要把sessionid當成cookie傳過去,這一步成功之後就可以隨心所欲的拿抓包資料了,但記得拿到sessionid之後,以後呼叫的介面都需要帶著sessionid
3.這裡你拿到的資料格式應該都是html的,你可以用jsoup去解析html的資料了。
網頁爬蟲php,php網頁爬蟲
網頁爬蟲 最簡單的使用,屬性都採用預設值 curl curl init output curl exec curl curl close curl echo output 稍微複雜一點的,對頁面進行操作 curl curl init curl setopt curl,curlopt url,可以動態...
網頁爬蟲 靜態網頁《一》
一 通過jsoup請求獲取 網頁審查元素。eg request path document doc jsoup.connect request path get 二 檢視需要扣取資料的標籤,通過日誌輸出 doc的body。eg log.v tag,body doc.body 三 檢視列印的日誌,找到...
XPath XPath 網頁爬蟲
申明 python3.6 順利安裝 安裝 from lxml import etree wb data 列印網頁原始碼 print 列印網頁原始碼 html etree.html wb data print html result etree.tostring html print result.d...