通用網路爬蟲是搜尋引擎抓取系統(baidu、google、sogou等)的乙個重要組成部分。主要目的是將網際網路上的網頁**到本地,形成乙個網際網路內容的映象備份。為搜尋引擎提供搜尋支援。
第一步搜尋引擎去成千上萬個**抓取資料。
第二步搜尋引擎通過爬蟲爬取到的網頁,將資料存入原始頁面資料庫(也就是文件庫)。其中的頁面資料與使用者瀏覽器得到的html是完全—樣的。
第三步搜尋引擎將爬蟲抓取回來的頁面,進行各種步驟的預處理:中文分詞,消除噪音,索引處理。。。
搜尋引擎在對資訊進行組織和處理後,為使用者提供關鍵程式設計客棧字檢索服務,將使用者檢索相關的資訊展示給使用者。展示的時候會進行排名。
聚焦爬蟲
針對通用爬蟲的這些情況,聚焦爬蟲技術得以廣泛使用。聚焦爬蟲,是"面向特定主題需求"的一種網路nhftzfmgf爬蟲程式,它與通用搜尋引擎爬蟲的區別在於:聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選,盡量保證只抓取與需求相關的網頁資料。
robots是**跟爬蟲間的協議,用簡單直接的txt格式文字方式告訴對應的爬蟲被允許的許可權,也就是說robots.txt是搜尋引擎中訪問**的時候要檢視的第乙個檔案。當乙個搜尋蜘蛛訪問乙個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,所有的搜尋蜘蛛將能夠訪問**上所有沒有被口令保護的頁面。——百度百科
robots協議也叫爬蟲協議、機械人協議等,全稱是「網路爬蟲排除標準」(robots exclusionprotocol),**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,例如:
**:
百度:
網路通訊由兩部分組成:客戶端請求訊息與伺服器響應訊息
瀏覽器傳送http請求的過程:
1.當我們在瀏覽器輸入url 的時候,瀏覽器傳送乙個request請求去
獲取 的html檔案,伺服器把response檔案物件傳送回給瀏覽器。
2.瀏覽器分析response中的html,發現其中引用了很多其他檔案,比如images檔案,css檔案,js檔案。瀏覽器會自動再次傳送request去獲取,css檔案,或者js檔案。
3.當所有的檔案都**成功後,網頁會根據html語法結構,完整的顯示出來了。
實際上我們通過學習爬蟲技術爬取資料,也是向伺服器請求資料,獲取伺服器響應資料的過程。
Python爬蟲入門二之爬蟲基礎了解
靜覓 python爬蟲入門二之爬蟲基礎了解 爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超...
Python爬蟲入門二之爬蟲基礎了解
爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...
Python爬蟲入門二之爬蟲基礎了解
爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...