1 網路爬蟲的介紹

網路爬蟲（web crawler）：是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。

在大資料時代，資訊的採集是一項重要的工作，而網際網路中的資料是海量的，如果單純靠人力進行資訊採集，不僅效率低，蒐集成本也會提高。如何自動高效地獲取網際網路中我們感興趣的資訊並為我們所用是乙個重要問題，而爬蟲技術就是為了解決這些問題而生的。

網路爬蟲（web crawler）也叫做網路機械人，可以替代人們自動地在網際網路中進行資料資訊的採集與整理。它是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼，可以自動採集所有其能夠訪問到的頁面內容，以獲取相關資料。

從功能上來講，爬蟲一般分為資料採集、處理、儲存三部分。爬蟲從乙個或若干個初識網頁的url開始，獲得初識網頁上的url，在抓取網頁的過程中，不斷從當前頁面上抽取新的url放入佇列，知道滿足系統的一定停止條件。

利用爬蟲自動地採集網際網路中的資訊，採集回來之後進行相應的儲存或處理，在需要檢索某些資訊時，只需要在採集回來的資訊中進行檢索，即實現來私人的搜尋引擎。

在進行大資料分析或者進行資料探勘的時候，需要有資料來源進行分析。可以利用爬蟲技術，自動地從網際網路中獲取我們感興趣的內容資料，並將這些資料內容爬去出來，作為我們的資料來源，再進行更深層次的資料分析，並獲取更多有價值的資訊。

對於很多 seo 從業者來說，為了更好的完成工作，那麼就必須要對搜尋引擎的工作原理非常清楚，同時也需要掌握搜尋引擎爬蟲的工作原理。

而學習爬蟲，可以更深層次地理解搜尋引擎爬蟲的工作原理，這樣進行搜尋引擎優化時，才能知己知彼，百戰不殆。