網路爬蟲與瀏覽器的異曲同工之處
抓取網頁的過程其實和讀者平時使用ie瀏覽器瀏覽網頁的道理是一樣的。比如,你開啟乙個瀏覽器,輸入清華大學的**如圖1.1所示。
"開啟"網頁的過程其實就是瀏覽器作為乙個瀏覽的"客戶端",向伺服器端傳送了一次請求,把伺服器端的檔案"抓"到本地,再進行解釋、展現。更進一步,可以通過瀏覽器端檢視"抓取"過來的檔案源**。選擇"檢視"|"原始檔"命令,就會出現從伺服器上"抓取"下來的檔案的源**,如圖1.2所示。
所謂網頁抓取,就是把url位址中指定的網路資源從網路流中讀取出來,儲存到本地。類似於使用程式模擬ie瀏覽器的功能,把url作為http請求的內容傳送到伺服器端,然後讀取伺服器端的響應資源。
網路爬蟲獲取網頁的核心**與ie瀏覽器的比較如下:
//建立乙個客戶端,類似於開啟乙個瀏覽器
//建立乙個get方法,類似於在瀏覽器位址列中輸入乙個位址
getmethod getmethod=new getmethod("");
//回車,獲得響應狀態碼
//檢視命中情況,可以獲得的東西還有很多,比如head、cookies等
system.out.println("response=" + getmethod.getresponsebodyasstring());
//釋放
getmethod.releaseconnection();
上面的示例**是使用httpclient進行請求與響應的例子。
l 第一行表示建立乙個客戶端,相當於開啟瀏覽器。
l 第二行使用get方式對進行請求。
l 第三行執行請求,獲取響應狀態。
l 第四行的 getmethod.getresponsebodyasstring()方法能夠以字串方式獲取返回的內容。這也是網頁抓取所需要的內容。在這個示例中,只是簡單地把返回的內容列印出來,而在實際專案中,通常需要把返回的內容寫入本地檔案並儲存。而對於瀏覽器而言,從伺服器返回的內容可以按照自己的風格顯示給使用者。pc機上的各個瀏覽器顯示內容風格差別不大;而在手機上,風格迥異。
l 最後還要關閉網路連線,以免造成資源消耗。
Python網路爬蟲(瀏覽器偽裝技術)
基本格式 欄位名 字段值 2 欄位2 accept encoding gzip,deflate 這一行欄位的資訊表示瀏覽器可以支援gzip,deflate等壓縮編碼。3 欄位3 accept language zh cn,zh q 0.8,en us q 0.5,en q 0.3 這一行欄位的資訊表...
03瀏覽器與網路
1.常用瀏覽器的核心 瀏覽器核心 瀏覽器的渲染引擎,負責將 渲染成網頁 2.程序與執行緒的概念 3.瀏覽器的幾大模組 瀏覽器是乙個多程序的應用程式,按照程序可劃分為這幾大模組 瀏覽器渲染網頁過程 渲染器程序在收到資料後,也就是html後,就開始解析html文件。渲染器主線程會html文件解析成dom...
網路爬蟲 模擬手機瀏覽器抓取資料
這種方式就比較簡單方便,直接修改chrome瀏覽器的user agent為指定的機型即可。這裡主要介紹一下第二種方法。樂桃航空pc端 樂桃航空移動端 可以看出移動端的介面比pc端的簡潔很多,抓包的時候也方便許多,可以過濾掉很多雜亂無章的js或者其他載入的資料。安卓 c program files x...