什麼是爬蟲？

世界上80%的爬蟲是基於python開發的，學好爬蟲技能，可為後續的大資料分析、挖掘、機器學習等提供重要的資料來源。

什麼是爬蟲？

網路爬蟲（又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

其實通俗的講就是通過程式去獲取web頁面上自己想要的資料，也就是自動抓取資料

爬蟲可以做什麼？

爬蟲的本質是什麼？

模擬瀏覽器開啟網頁，獲取網頁中我們想要的那部分資料

瀏覽器開啟網頁的過程：

當你在瀏覽器中輸入位址後，經過dns伺服器找到伺服器主機，向伺服器傳送乙個請求，伺服器經過解析後傳送給使用者瀏覽器結果，包括html,js,css等檔案內容，瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果

所以使用者看到的瀏覽器的結果就是由html**構成的，我們爬蟲就是為了獲取這些內容，通過分析和過濾html**，從中獲取我們想要資源。