Python爬蟲基礎之爬蟲的分類知識總結

通用網路爬蟲是搜尋引擎抓取系統(baidu、google、sogou等)的乙個重要組成部分。主要目的是將網際網路上的網頁**到本地，形成乙個網際網路內容的映象備份。為搜尋引擎提供搜尋支援。

第一步搜尋引擎去成千上萬個**抓取資料。

第二步搜尋引擎通過爬蟲爬取到的網頁，將資料存入原始頁面資料庫(也就是文件庫)。其中的頁面資料與使用者瀏覽器得到的html是完全—樣的。

第三步搜尋引擎將爬蟲抓取回來的頁面，進行各種步驟的預處理:中文分詞，消除噪音，索引處理。。。

搜尋引擎在對資訊進行組織和處理後，為使用者提供關鍵程式設計客棧字檢索服務，將使用者檢索相關的資訊展示給使用者。展示的時候會進行排名。

聚焦爬蟲

針對通用爬蟲的這些情況，聚焦爬蟲技術得以廣泛使用。聚焦爬蟲，是"面向特定主題需求"的一種網路nhftzfmgf爬蟲程式，它與通用搜尋引擎爬蟲的區別在於：聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選，盡量保證只抓取與需求相關的網頁資料。

robots是**跟爬蟲間的協議，用簡單直接的txt格式文字方式告訴對應的爬蟲被允許的許可權，也就是說robots.txt是搜尋引擎中訪問**的時候要檢視的第乙個檔案。當乙個搜尋蜘蛛訪問乙個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜尋機械人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在，所有的搜尋蜘蛛將能夠訪問**上所有沒有被口令保護的頁面。——百度百科

robots協議也叫爬蟲協議、機械人協議等，全稱是「網路爬蟲排除標準」(robots exclusionprotocol)，**通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取，例如:

**:

百度:

網路通訊由兩部分組成:客戶端請求訊息與伺服器響應訊息

瀏覽器傳送http請求的過程：

1.當我們在瀏覽器輸入url 的時候，瀏覽器傳送乙個request請求去

獲取的html檔案，伺服器把response檔案物件傳送回給瀏覽器。

2.瀏覽器分析response中的html，發現其中引用了很多其他檔案，比如images檔案，css檔案，js檔案。瀏覽器會自動再次傳送request去獲取，css檔案，或者js檔案。

3.當所有的檔案都**成功後，網頁會根據html語法結構，完整的顯示出來了。

實際上我們通過學習爬蟲技術爬取資料，也是向伺服器請求資料,獲取伺服器響應資料的過程。

Python爬蟲基礎之爬蟲的分類知識總結

Python爬蟲入門二之爬蟲基礎了解

Python爬蟲入門二之爬蟲基礎了解

Python爬蟲入門二之爬蟲基礎了解

Python爬蟲基礎之爬蟲的分類知識總結

Python爬蟲入門二之爬蟲基礎了解

Python爬蟲入門二之爬蟲基礎了解

Python爬蟲入門二之爬蟲基礎了解

相關推薦