網路爬蟲與瀏覽器的異曲同工之處

網路爬蟲與瀏覽器的異曲同工之處

抓取網頁的過程其實和讀者平時使用ie瀏覽器瀏覽網頁的道理是一樣的。比如，你開啟乙個瀏覽器，輸入清華大學的**如圖1.1所示。

"開啟"網頁的過程其實就是瀏覽器作為乙個瀏覽的"客戶端"，向伺服器端傳送了一次請求，把伺服器端的檔案"抓"到本地，再進行解釋、展現。更進一步，可以通過瀏覽器端檢視"抓取"過來的檔案源**。選擇"檢視"|"原始檔"命令，就會出現從伺服器上"抓取"下來的檔案的源**，如圖1.2所示。

所謂網頁抓取，就是把url位址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬ie瀏覽器的功能，把url作為http請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。

網路爬蟲獲取網頁的核心**與ie瀏覽器的比較如下：

//建立乙個客戶端，類似於開啟乙個瀏覽器

//建立乙個get方法，類似於在瀏覽器位址列中輸入乙個位址

getmethod getmethod=new getmethod("");

//回車，獲得響應狀態碼

//檢視命中情況，可以獲得的東西還有很多，比如head、cookies等

system.out.println("response=" + getmethod.getresponsebodyasstring());

//釋放

getmethod.releaseconnection();

上面的示例**是使用httpclient進行請求與響應的例子。

l 第一行表示建立乙個客戶端，相當於開啟瀏覽器。

l 第二行使用get方式對進行請求。

l 第三行執行請求，獲取響應狀態。

l 第四行的 getmethod.getresponsebodyasstring()方法能夠以字串方式獲取返回的內容。這也是網頁抓取所需要的內容。在這個示例中，只是簡單地把返回的內容列印出來，而在實際專案中，通常需要把返回的內容寫入本地檔案並儲存。而對於瀏覽器而言，從伺服器返回的內容可以按照自己的風格顯示給使用者。pc機上的各個瀏覽器顯示內容風格差別不大；而在手機上，風格迥異。

l 最後還要關閉網路連線，以免造成資源消耗。

網路爬蟲與瀏覽器的異曲同工之處

Python網路爬蟲（瀏覽器偽裝技術）

03瀏覽器與網路

網路爬蟲模擬手機瀏覽器抓取資料

網路爬蟲與瀏覽器的異曲同工之處

Python網路爬蟲（瀏覽器偽裝技術）

03瀏覽器與網路

網路爬蟲 模擬手機瀏覽器抓取資料

相關推薦

網路爬蟲模擬手機瀏覽器抓取資料