爬蟲基礎知識

大資料時代，要進行資料分析，首先要有資料來源。而學習爬蟲，可以讓我們獲取更多的資料來源，並且這些資料來源可以按我們的目的進行採集，去掉很多無關資料。

網路爬蟲（又被稱為網頁蜘蛛，網路機械人）就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

只要是瀏覽器能做的事情，原則上，爬蟲都能夠做。

通用爬蟲：通常指搜尋引擎的爬蟲

通用搜尋引擎（search engine）工作原理：

通用網路爬蟲從網際網路中蒐集網頁，採集資訊，這些網頁資訊用於為搜尋引擎建立索引從而提供支援，它決定著整個引擎系統的內容是否豐富，資訊是否即時，因此其效能的優劣直接影響著搜尋引擎的效果。

第一步：抓取網頁

1）首先選取一部分的種子url，將這些url放入待抓取url佇列；

3）分析已抓取url佇列中的url，分析其中的其他url，並且將url放入待抓取url佇列，從而進入下乙個迴圈…

第二步：資料儲存

搜尋引擎通過爬蟲爬取到的網頁，將資料存入原始頁面資料庫。其中的頁面資料與使用者瀏覽器得到的html是完全一樣的。

搜尋引擎蜘蛛在抓取頁面時，也做一定的重複內容檢測，一旦遇到訪問權重很低的**上有大量抄襲、採集或者複製的內容，很可能就不再爬行。

第三步：預處理

除了html檔案外，搜尋引擎通常還能抓取和索引以文字為基礎的多種檔案型別，如 pdf、word、wps、xls、ppt、txt 檔案等。我們在搜尋結果中也經常會看到這些檔案型別。

搜尋引擎在對資訊進行組織和處理後，為使用者提供關鍵字檢索服務，將使用者檢索相關的資訊展示給使用者。

但是，這些通用性搜尋引擎也存在著一定的侷限性：

1）通用搜尋引擎所返回的結果都是網頁，而大多情況下，網頁裡90%的內容對使用者來說都是無用的。

2）不同領域、不同背景的使用者往往具有不同的檢索目的和需求，搜尋引擎無法提供針對具體某個使用者的搜尋結果。

4）通用搜尋引擎大多提供基於關鍵字的檢索，難以支援根據語義資訊提出的查詢，無法準確理解使用者的具體需求。

robots協議：**通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取。

爬蟲基礎知識整理

網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬客戶端主要指瀏覽器傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。網路爬蟲就是根據網頁的位址來尋找網頁的，也就是url。舉乙個簡單的例子，我們在瀏覽器的位址列中輸入的字串就是url，例如 url就是同意資源定位符 un...

爬蟲基礎知識（柒）

1 mongodb 文件資料庫，儲存的是文件 bson json的二進位製化 json資料儲存的就是js中物件和陣列。2 mongodb特點內部執行引擎為js直譯器，把文件儲存成bson結構，在查詢時轉換為js物件，並可以通過熟悉的js語法來操作。3 mongo和傳統型資料庫的不同 4 mongo...

爬蟲基礎知識（陸）

一程式程序與執行緒程式相當於乙個應用。程序程式執行資源記憶體資源的最小分配單位，乙個程式可以有多個程序。執行緒 cpu最小的排程單位，必須依賴程序而存在。執行緒沒有獨立資源，所有執行緒共享該程序的全部資源。執行緒的劃分尺度比程序小。二為什麼多程序和多執行緒可以提高程式的執行速度？1 ...

爬蟲基礎知識

爬蟲基礎知識整理

爬蟲基礎知識（柒）

爬蟲基礎知識（陸）

相關推薦