爬蟲學習筆記

2022-09-15 17:18:13 字數 2645 閱讀 2431

爬去網頁

解析資料

難點:爬蟲與反爬蟲的博弈

通用爬蟲:

功能:訪問網頁-抓取資料-資料儲存-資料處理-提供檢索服務

抓取過程

給定一些起始url,放入待爬取佇列

從佇列中獲取url物件,開始爬取資料

分析網頁,獲取網頁內所有的url,入隊,繼續重複第二步

主動給搜尋引擎提交url

robots協議:

約定的協議,新增robots.txt 說明哪些不被爬取

自己寫的爬蟲無需遵守

根據pagerank值進行排名(參考**流量,點選率等指標)

缺點:

爬取太多無用資料

不能根據使用者需求來精準獲取資料

聚焦爬蟲:

功能:根據需求,實現爬蟲程式抓取需要的資料

原理:

網頁都有唯一的url

網頁都是html組成

傳輸協議都是http/https

設計思路:

獲取url——確定要爬取的url

如何訪問——模擬瀏覽器通過http協議訪問url,獲取伺服器返回的html**

如何解析——解析html字串(根據一定規則提取需要的資料)

3.整體內容

python 語法

使用python庫

urllib.request

urllib.parse

requests

scrapy

解析內容:

正規表示式

xpath

bs4jsonpath

採集動態html

scrapy:高效能非同步爬蟲框架

分布式爬蟲:scrapy——redis元件

反爬蟲的一般手段:

user—agent

**ip

驗證碼訪問

動態載入網頁

資料加密

爬蟲-反爬蟲-反反爬蟲

爬去網頁

解析資料

難點:爬蟲與反爬蟲的博弈

通用爬蟲:

功能:訪問網頁-抓取資料-資料儲存-資料處理-提供檢索服務

抓取過程

給定一些起始url,放入待爬取佇列

從佇列中獲取url物件,開始爬取資料

分析網頁,獲取網頁內所有的url,入隊,繼續重複第二步

主動給搜尋引擎提交url

robots協議:

約定的協議,新增robots.txt 說明哪些不被爬取

自己寫的爬蟲無需遵守

根據pagerank值進行排名(參考**流量,點選率等指標)

缺點:

爬取太多無用資料

不能根據使用者需求來精準獲取資料

聚焦爬蟲:

功能:根據需求,實現爬蟲程式抓取需要的資料

原理:

網頁都有唯一的url

網頁都是html組成

傳輸協議都是http/https

設計思路:

獲取url——確定要爬取的url

如何訪問——模擬瀏覽器通過http協議訪問url,獲取伺服器返回的html**

如何解析——解析html字串(根據一定規則提取需要的資料)

3.整體內容

python 語法

使用python庫

urllib.request

urllib.parse

requests

scrapy

解析內容:

正規表示式

xpath

bs4jsonpath

採集動態html

scrapy:高效能非同步爬蟲框架

分布式爬蟲:scrapy——redis元件

反爬蟲的一般手段:

user—agent

**ip

驗證碼訪問

動態載入網頁

資料加密

爬蟲-反爬蟲-反反爬蟲

python爬蟲學習筆記

一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...

scrapy 爬蟲學習筆記

1.安裝scrapy pip install i 源 scrapy 2.手動建立scarpy專案 scrapy startproject 專案名稱 3.scrapy genspider jobbole blog.jobbole.com 使用自帶模板 4.除錯 修改setting檔案中obey rob...

Python爬蟲學習筆記

1.使用build opener 修改報頭 headers user agent 定義變數headers儲存user agent資訊 opener urllib.request.build opener 建立opener物件並賦給變數 openeropener.addheaders headers ...