五分鐘告訴你什麼是爬蟲?

2021-08-22 18:10:14 字數 1128 閱讀 7274

把網際網路比喻成一張網,那麼爬蟲就是網上爬行的蜘蛛,把網的節點比喻成乙個個網頁,爬蟲爬取到就相當於訪問了該頁面,獲取了其資訊,爬蟲可以通過乙個節點之後,順著節點連線(鏈結) 繼續爬行到下乙個節點,即通過乙個網頁繼續獲取後續的網頁,這樣整個網的節點就可以被爬蟲全部爬到。

實際實現可理解為:網路爬蟲(又稱網頁蜘蛛,網路機械人)模擬瀏覽器傳送網路請求,接收請求響應,按照一定的規則,自動地抓取網際網路資訊的程式。

簡而言之:爬蟲就是獲取網頁並提取和儲存資訊的自動化程式。(原則上,只要是瀏覽器(客戶端)能做的事情,爬蟲都能夠做。)

關於獲取網頁:

爬蟲的首要工作就是獲取網頁,即獲取網頁源**,python提供了很多庫來幫助我們實現發請求、獲取網頁響應的操作,如urllib、requests(會在後續文章中進行介紹)。我們可用這些庫來幫助我們實現http操作。

關於提取資訊:

網頁中資訊冗雜,我們不會全都需要,就要把獲得的資料進行提取篩選,網頁的結構有一定的規則,還有一些可以根據網頁節點屬性、css選擇器、xpath來提取網頁資訊的庫,如beautiful soup、 pyquery、lxml等,使用這些庫可以快速高效的從中提取網頁資訊。

關於儲存資料:

提取資訊後就需要對提取到的資料儲存到某處方便後續使用,儲存的形式多種多樣,txt、json or in  db , such as mysql and mongodb 。

robots協議:**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是網際網路中的一般約定

例如:**的robots協議

爬蟲的概念:模擬瀏覽器傳送網路請求,接收請求響應

爬蟲分類:通用爬蟲、聚焦爬蟲

爬蟲的流程:

robots協議:無需遵守該協議

進一步了解爬蟲:請看  爬蟲(一)爬蟲入門

scrat 乙個熱愛堅果的松鼠哦~

什麼是DNS?3分鐘告訴你!

什麼是dns?在使用 ip的時候,會看到設定的地方有這個專用詞出現,但是不知道它代表的是什麼?這樣會對我們使用 ip有影響嗎?理論上,按照指引去設定就可以正常使用,但是多了解一些網路知識也沒有壞處。下面我們來了解dns。dns 是計算機網域名稱系統 domain name system 或 doma...

五分鐘了解什麼是Openstack

什麼是openstack openstack是全球雲計算技術專家和開發者為公有雲和私有雲聯合協作完成的開源雲計算平台。這個專案通過實現簡單 超大規模以及特性豐富等特點為所有型別的雲提供解決方案。這項技術包含了很多相關的專案用以為雲基礎架構的解決方案提供各種元件。openstack的幕後英雄 由rac...

3 分鐘告訴你為什麼要學 Go

文章 go語言中文文件 go語言 或 golang 是google開發的開源程式語言,誕生於2006年1月2日下午15點4分5秒,於2009年11月開源,2012年發布go穩定版。go語言在多核併發上擁有原生的設計優勢,go語言從底層原生支援併發,無須第三方庫 開發者的程式設計技巧和開發經驗。go是...