大資料時代,要進行資料分析,首先要有資料來源。而學習爬蟲,可以讓我們獲取更多的資料來源,並且這些資料來源可以按我們的目的進行採集,去掉很多無關資料。
網路爬蟲(又被稱為網頁蜘蛛,網路機械人)就是模擬客戶端傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。
只要是瀏覽器能做的事情,原則上,爬蟲都能夠做。
通用爬蟲 :通常指搜尋引擎的爬蟲
通用搜尋引擎(search engine)工作原理:
通用網路爬蟲從網際網路中蒐集網頁,採集資訊,這些網頁資訊用於為搜尋引擎建立索引從而提供支援,它決定著整個引擎系統的內容是否豐富,資訊是否即時,因此其效能的優劣直接影響著搜尋引擎的效果。
第一步:抓取網頁
1)首先選取一部分的種子url,將這些url放入待抓取url佇列;
3)分析已抓取url佇列中的url,分析其中的其他url,並且將url放入待抓取url佇列,從而進入下乙個迴圈…
第二步:資料儲存
搜尋引擎通過爬蟲爬取到的網頁,將資料存入原始頁面資料庫。其中的頁面資料與使用者瀏覽器得到的html是完全一樣的。
搜尋引擎蜘蛛在抓取頁面時,也做一定的重複內容檢測,一旦遇到訪問權重很低的**上有大量抄襲、採集或者複製的內容,很可能就不再爬行。
第三步:預處理
除了html檔案外,搜尋引擎通常還能抓取和索引以文字為基礎的多種檔案型別,如 pdf、word、wps、xls、ppt、txt 檔案等。我們在搜尋結果中也經常會看到這些檔案型別。
搜尋引擎在對資訊進行組織和處理後,為使用者提供關鍵字檢索服務,將使用者檢索相關的資訊展示給使用者。
但是,這些通用性搜尋引擎也存在著一定的侷限性:
1)通用搜尋引擎所返回的結果都是網頁,而大多情況下,網頁裡90%的內容對使用者來說都是無用的。
2)不同領域、不同背景的使用者往往具有不同的檢索目的和需求,搜尋引擎無法提供針對具體某個使用者的搜尋結果。
4)通用搜尋引擎大多提供基於關鍵字的檢索,難以支援根據語義資訊提出的查詢,無法準確理解使用者的具體需求。
robots協議:**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。
爬蟲基礎知識整理
網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端 主要指瀏覽器 傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。網路爬蟲就是根據網頁的位址來尋找網頁的,也就是url。舉乙個簡單的例子,我們在瀏覽器的位址列中輸入的字串就是url,例如 url就是同意資源定位符 un...
爬蟲基礎知識(柒)
1 mongodb 文件資料庫,儲存的是文件 bson json的二進位製化 json資料儲存的就是js中物件和陣列。2 mongodb特點 內部執行引擎為js直譯器,把文件儲存成bson結構,在查詢時轉換為js物件,並可以通過熟悉的js語法來操作。3 mongo和傳統型資料庫的不同 4 mongo...
爬蟲基礎知識(陸)
一 程式 程序與執行緒 程式 相當於乙個應用。程序 程式執行資源 記憶體資源 的最小分配單位,乙個程式可以有多個程序。執行緒 cpu最小的排程單位,必須依賴程序而存在。執行緒沒有獨立資源,所有執行緒共享該程序的全部資源。執行緒的劃分尺度比程序小。二 為什麼多程序和多執行緒可以提高程式的執行速度?1 ...