python爬蟲專項(2) 網頁結構剖析

2021-10-02 14:38:07 字數 1889 閱讀 3159

以豆瓣網為例:

1)瀏覽器:谷歌瀏覽器 - chrome

2)開啟開發者模式:右鍵 → 檢查

3)檢視源**:右鍵 → 檢視網頁源**

2.1 乙個簡單的框架圖

2.2 爬蟲基本邏輯(一):【分頁網頁url採集】-【資料資訊網頁url採集】-【資料採集】

該邏輯1個資料資訊網頁採集1條資料

第一步【分頁網頁url採集】→ 得到乙個分頁的urllst1

。。。。。。

② 這裡由於網頁只需要更改「page=…」,所以通過for迴圈即可

第二步【資料資訊網頁url採集】→ 得到乙個資料頁的urllst2

① 基於分頁**urllst1,採集每乙個資料頁面的url,並存入urllst2

。。。。。。

② 這裡需要用到requests + beautifulsoup實現

第三步【資料採集】→ 每條資料存進乙個dict,所有dict組成乙個datalst列表

① 通過beautisulsoup解析標籤,採集資料

② 通過beautisulsoup實現(接下來要將的內容)

2.3 爬蟲基本邏輯(二):【分頁網頁url採集】-【資料採集】

該邏輯也可以稱為:「迴圈標籤採集」:1個分頁網頁採集n條資料

優勢:相比於第一種邏輯,訪問網頁次數較少,容易避開反爬

劣勢:相比於第一種邏輯,獲取資訊較少

第一步【分頁網頁url採集】→ 得到乙個分頁的urllst1

。。。。。。

② 這裡由於網頁只需要更改「page=…」,所以通過for迴圈即可

第二步【資料採集】→ 每條資料存進乙個dict,所有dict組成乙個datalst列表

① 通過for迴圈依次採集該頁面的多個標籤

② 通過beautisulsoup實現,進行網頁的解析,獲取標籤資訊全部存到dict裡面

網路資源訪問工具:requests

掌握requests工具包,學會通過python訪問**,並做簡單的內容識別

網頁資訊解析方法:xpath與beautifulsoup

掌握beautifulsoup工具包,理解xpath網頁解析方法,基本掌握靜態網頁的頁面資料識別

爬蟲資料庫:mongodb

掌握非關聯式資料庫mongodb,並且學會用python連線及使用mongodb,管理採集資料

Python爬蟲(三) 網頁解析

所需庫from bs4 import beautifulsoup專案 示例html askurl 獲取頁面html文字 soup beautifulsoup html,html.parser 使用html解析來處理html變數 變數名 item1 soup.find all article 匹配ar...

python爬蟲 五 網頁解析器

網頁解析器 是從網頁中提取有價值資料的工具 python 有四種網頁解析器 1 正規表示式 模糊匹配解析 2 html.parser 結構化解析 3 beautiful soup 結構化解析 4 lxml 結構化解析 其中 beautiful soup 功能很強大,有html.parse和 lxml...

python爬蟲基礎04 網頁解析庫xpath

xpath 是一門在 xml 文件中查詢資訊的語言。xpath 用於在 xml 文件中通過元素和屬性進行導航。相比於beautifulsoup,xpath在提取資料時會更加的方便。在python中很多庫都有提供xpath的功能,但是最基本的還是lxml這個庫,效率最高。在之前beautifulsou...