爬蟲學習筆記

2022-09-15 17:18:13 字數 2645 閱讀 2431

爬去網頁

解析資料

難點：爬蟲與反爬蟲的博弈

通用爬蟲：

功能：訪問網頁-抓取資料-資料儲存-資料處理-提供檢索服務

抓取過程：

給定一些起始url，放入待爬取佇列

從佇列中獲取url物件，開始爬取資料

分析網頁，獲取網頁內所有的url，入隊，繼續重複第二步

主動給搜尋引擎提交url

robots協議：

約定的協議，新增robots.txt 說明哪些不被爬取

自己寫的爬蟲無需遵守

根據pagerank值進行排名（參考**流量，點選率等指標）

缺點：

爬取太多無用資料

不能根據使用者需求來精準獲取資料

聚焦爬蟲：

功能：根據需求，實現爬蟲程式抓取需要的資料

原理：

網頁都有唯一的url

網頁都是html組成

傳輸協議都是http／https

設計思路：

獲取url——確定要爬取的url

如何訪問——模擬瀏覽器通過http協議訪問url，獲取伺服器返回的ｈｔｍｌ**

如何解析——解析html字串（根據一定規則提取需要的資料）

3.整體內容

python　語法

使用python庫

urllib.request

urllib.parse

requests

scrapy

解析內容：

正規表示式

xpath

bs4jsonpath

採集動態html

scrapy：高效能非同步爬蟲框架

分布式爬蟲：scrapy——redis元件

反爬蟲的一般手段：

user—agent

**ip

驗證碼訪問

動態載入網頁

資料加密

爬蟲-反爬蟲-反反爬蟲

爬去網頁

解析資料

難點：爬蟲與反爬蟲的博弈

通用爬蟲：

功能：訪問網頁-抓取資料-資料儲存-資料處理-提供檢索服務

抓取過程：

給定一些起始url，放入待爬取佇列

從佇列中獲取url物件，開始爬取資料

分析網頁，獲取網頁內所有的url，入隊，繼續重複第二步

主動給搜尋引擎提交url

robots協議：

約定的協議，新增robots.txt 說明哪些不被爬取

自己寫的爬蟲無需遵守

根據pagerank值進行排名（參考**流量，點選率等指標）

缺點：

爬取太多無用資料

不能根據使用者需求來精準獲取資料

聚焦爬蟲：

功能：根據需求，實現爬蟲程式抓取需要的資料

原理：

網頁都有唯一的url

網頁都是html組成

傳輸協議都是http／https

設計思路：

獲取url——確定要爬取的url

如何訪問——模擬瀏覽器通過http協議訪問url，獲取伺服器返回的ｈｔｍｌ**

如何解析——解析html字串（根據一定規則提取需要的資料）

3.整體內容

python　語法

使用python庫

urllib.request

urllib.parse

requests

scrapy

解析內容：

正規表示式

xpath

bs4jsonpath

採集動態html

scrapy：高效能非同步爬蟲框架

分布式爬蟲：scrapy——redis元件

反爬蟲的一般手段：

user—agent

**ip

驗證碼訪問

動態載入網頁

資料加密

爬蟲-反爬蟲-反反爬蟲

python爬蟲學習筆記

一爬蟲思路對於一般的文章而言，思路如下 1.通過主頁url獲取主頁原始碼，從主頁原始碼中獲得標題鏈結如想要抓取知乎上的新聞，就獲得主頁上的新聞鏈結 2.繼續通過標題鏈結獲得標題原始碼，進而獲得標題中的內容。其中，當存在多頁時，先將每一頁都一樣的url寫下來，然後迴圈加入頁碼，具...

scrapy 爬蟲學習筆記

1.安裝scrapy pip install i 源 scrapy 2.手動建立scarpy專案 scrapy startproject 專案名稱 3.scrapy genspider jobbole blog.jobbole.com 使用自帶模板 4.除錯修改setting檔案中obey rob...

Python爬蟲學習筆記

1.使用build opener 修改報頭 headers user agent 定義變數headers儲存user agent資訊 opener urllib.request.build opener 建立opener物件並賦給變數 openeropener.addheaders headers ...