爬蟲的原理和思路（自我總結）

網路爬蟲框架主要由

控制器、

解析器和

索引庫

解析器的具體流程是：

爬蟲的思路：

1、檢視該**是否可爬，robot.txt是君子協議，定義了可爬取和不可爬取的內容；之所以叫做君子協議是靠自己的道德去約束的，就是你可以去爬但是違反了你的道德~~~

3、通過 python 正則對所需要的資料進行分析，匹配出資料

4、儲存資料（資料庫或檔案中）

如果**有反爬蟲技術，那麼這個過程可能就會稍複雜。

爬蟲的難點在於如何去提取到你需要的資料。

response原始碼中沒有要提取的內容：

只有2種可能，一是ajax非同步，二是js拼接而成

獲取js載入的內容：

1、js載入的：需要分析到底是哪個js載入出來的，可用除錯工具打斷點。然後模擬請求獲得資料

2、使用pyv8

不到萬不得已不要模擬瀏覽器，消耗效能和記憶體，手工除錯分析出資料**請求即可

實現爬蟲的思路

網路爬蟲通過程式模擬瀏覽器請求站點的行為，把返回的資料爬到本地，提取自己需要的資料，儲存起來使用。爬蟲構成 1 確定目標 2 解析目標的資料資訊 3 程式模擬使用者發出http請求獲取資料 4 從獲取的資料中儲存到本地，刪選需要的相關資料 5 對獲取到的資料根據自己的需求使用注意一般做爬蟲都會...

網路爬蟲的原理和案例

乙個通用的網路爬蟲的框架如圖所示網路爬蟲的基本工作流程如下對應的，可以將網際網路的所有頁面分為五個部分可知網頁還沒有抓取下來，也沒有在待抓取url佇列中，但是可以通過對已抓取頁面或者待抓取url對應頁面進行分析獲取到的url，認為是可知網頁。在爬蟲系統中，待抓取url佇列是很重要的一部分。待...

爬蟲的原理

1 什麼是爬蟲？網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬瀏覽器傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式原則上,只要是瀏覽器客戶端能做的事情，爬蟲都能夠做 2 爬蟲的本質模擬瀏覽器開啟網頁，獲取網頁中想要的那部分資料瀏覽器開啟網頁的過程如下請求的...

爬蟲的原理和思路（自我總結）

實現爬蟲的思路

網路爬蟲的原理和案例

爬蟲的原理

相關推薦