android ios 網頁爬蟲

最近專案中需要用到公積金相關的資料，但是公積金那邊又沒有提供相關的開放介面供呼叫，因此動手把公積金的網頁抓下來對資料進行解析，拿到資料。

廢話不多說，以昆明公積金為例進行分析下。

準備：1.昆明公積金官網：

2.抓包工具：httpwatch（fiddler）

4.html解析jar包：

一般**抓資料流程分析

一般的**的流程都是這樣的，我們想抓公積金的資料同樣也是這個流程，所以要抓取資料必須要登入的，但是登入就要有驗證碼的，這樣看起來難點就在模擬登入了。

用httpwatch抓包驗證了下，想拿到公積金賬戶資訊除了必要的引數之外，還需要乙個cookie。

這裡我把爬公積金流程描述下：

1. 呼叫獲取驗證碼介面拿到sessionid

2.呼叫登入介面登入，這裡除了登入要傳的引數外，還需要把sessionid當成cookie傳過去，這一步成功之後就可以隨心所欲的拿抓包資料了，但記得拿到sessionid之後，以後呼叫的介面都需要帶著sessionid

3.這裡你拿到的資料格式應該都是html的，你可以用jsoup去解析html的資料了。

網頁爬蟲php,php網頁爬蟲

網頁爬蟲最簡單的使用,屬性都採用預設值 curl curl init output curl exec curl curl close curl echo output 稍微複雜一點的，對頁面進行操作 curl curl init curl setopt curl,curlopt url,可以動態...

網頁爬蟲靜態網頁《一》

一通過jsoup請求獲取網頁審查元素。eg request path document doc jsoup.connect request path get 二檢視需要扣取資料的標籤，通過日誌輸出 doc的body。eg log.v tag,body doc.body 三檢視列印的日誌，找到...

XPath XPath 網頁爬蟲

申明 python3.6 順利安裝安裝 from lxml import etree wb data 列印網頁原始碼 print 列印網頁原始碼 html etree.html wb data print html result etree.tostring html print result.d...

android ios 網頁爬蟲

網頁爬蟲php,php網頁爬蟲

網頁爬蟲 靜態網頁《一》

XPath XPath 網頁爬蟲

相關推薦

網頁爬蟲靜態網頁《一》