爬蟲的原理和思路(自我總結)

2021-08-21 10:02:07 字數 607 閱讀 5894

網路爬蟲框架主要由

控制器

解析器

索引庫

解析器的具體流程是:

爬蟲的思路:

1、檢視該**是否可爬,robot.txt是君子協議,定義了可爬取和不可爬取的內容;之所以叫做君子協議是靠自己的道德去約束的,就是你可以去爬但是違反了你的道德~~~

3、通過 python 正則對所需要的資料進行分析,匹配出資料

4、儲存資料(資料庫或檔案中)

如果**有反爬蟲技術,那麼這個過程可能就會稍複雜。

爬蟲的難點在於如何去提取到你需要的資料。

response原始碼中沒有要提取的內容:

只有2種可能,一是ajax非同步,二是js拼接而成

獲取js載入的內容:

1、js載入的:需要分析到底是哪個js載入出來的,可用除錯工具打斷點。然後模擬請求獲得資料

2、使用pyv8

不到萬不得已不要模擬瀏覽器,消耗效能和記憶體,手工除錯分析出資料**請求即可

實現爬蟲的思路

網路爬蟲通過程式模擬瀏覽器請求站點的行為,把 返回的資料爬到本地,提取自己需要的資料,儲存起來使用。爬蟲構成 1 確定目標 2 解析目標 的資料資訊 3 程式模擬使用者發出http請求獲取資料 4 從獲取的資料中儲存到本地,刪選需要的相關資料 5 對獲取到的資料根據自己的需求使用 注意一般做爬蟲都會...

網路爬蟲的原理和案例

乙個通用的網路爬蟲的框架如圖所示 網路爬蟲的基本工作流程如下 對應的,可以將網際網路的所有頁面分為五個部分 可知網頁 還沒有抓取下來,也沒有在待抓取url佇列中,但是可以通過對已抓取頁面或者待抓取url對應頁面進行分析獲取到的url,認為是可知網頁。在爬蟲系統中,待抓取url佇列是很重要的一部分。待...

爬蟲的原理

1 什麼是爬蟲?網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式 原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 2 爬蟲的本質 模擬瀏覽器開啟網頁,獲取網頁中想要的那部分資料 瀏覽器開啟網頁的過程如下 請求的...