我們將要爬取人民網某些新聞中的資料,那我們該如何實現呢?
首先我們先實現第一步:根據url,模擬url請求,根據url獲取網頁中的內容。
//設定全域性的標準cookie策略
requestconfig config = requestconfig.custom().setcookiespec(cookiespecs.ignore_cookies).build();
//建立自定義的httpclient物件
//建立post方式請求物件
//設定請求和傳輸超時時間 毫秒
//裝填引數
listnvps = new arraylist();
if(map!=null)
} //設定引數到請求物件中
system.out.println("請求引數:"+nvps.tostring());
//設定header資訊
//指定報文頭【content-type】、【user-agent】
//執行請求操作,並拿到結果(同步阻塞)
}*///獲取結果實體
//釋放鏈結
response.close();
return results;
} /** *
*@param url
*@param params 可變引數,設定網頁編碼
*@return
*@throws keymanagementexception
*@throws nosuchalgorithmexception
*@throws clientprotocolexception
*@throws ioexception
*/public
static string get(string url,string ... params)
//採用繞過驗證的方式處理https請求
sslcontext sslcontext = sslclient.createignoreverifyssl();
// 設定協議http和https對應的處理socket鏈結工廠的物件
//設定全域性的標準cookie策略
requestconfig config = requestconfig.custom().setcookiespec(cookiespecs.ignore_cookies).build();
//建立自定義的httpclient物件
//建立get方式請求物件
//設定請求和傳輸超時時間 毫秒
//設定header資訊
//指定報文頭【content-type】、【user-agent】
//執行請求操作,並拿到結果(同步阻塞)
}//獲取結果實體
//釋放鏈結
response.close();
}catch (exception ex)
return results;
} }當然我們這步的實現也可以採取很多優秀的框架,就不用自己寫工具類來進行實現啦!
下一節會具體介紹,怎麼獲取想要的具體內容
GoLang 爬蟲 模擬傳送HTTP請求
golang的標準庫net http可以實現client和server的功能開發。簡單來說,client就是我們向伺服器傳送http請求,常用於訪問api介面獲取相應資料 開發網路爬蟲等功能 server是開發伺服器web應用,也就說我們常說的 開發。本博文講述如何使用golang的標準庫net h...
Python爬蟲之模擬POST請求
multipart form data text xml flask 獲取引數的幾種方式方式 python 中 requests 模組提交 post 引數的幾種方式 提交 multipart form data 格式的引數,需要借助乙個第三方模組 requests toolbelt 來對引數進行封裝...
爬蟲 反爬蟲 系列一 基礎之模擬請求 2
基礎之模擬請求 2 在開發爬蟲程式前,你應該知道你需要的資料來自哪兒,以及怎麼獲取。為了更快的做到這一點,需要對http請求進行模擬進行驗證。以下是我常用的幾種方式,基本上是足夠用了。以南方航空官網為例,假如我想爬南航的機票航班資訊,那麼我會先用瀏覽器除錯一番。瀏覽器除錯 用火狐瀏覽器開啟南航官網,...