以豆瓣網為例:
1)瀏覽器:谷歌瀏覽器 - chrome
2)開啟開發者模式:右鍵 → 檢查
3)檢視源**:右鍵 → 檢視網頁源**
2.1 乙個簡單的框架圖
2.2 爬蟲基本邏輯(一):【分頁網頁url採集】-【資料資訊網頁url採集】-【資料採集】
該邏輯1個資料資訊網頁採集1條資料
第一步【分頁網頁url採集】→ 得到乙個分頁的urllst1
。。。。。。
② 這裡由於網頁只需要更改「page=…」,所以通過for迴圈即可
第二步【資料資訊網頁url採集】→ 得到乙個資料頁的urllst2
① 基於分頁**urllst1,採集每乙個資料頁面的url,並存入urllst2
。。。。。。
② 這裡需要用到requests + beautifulsoup實現
第三步【資料採集】→ 每條資料存進乙個dict,所有dict組成乙個datalst列表
① 通過beautisulsoup解析標籤,採集資料
② 通過beautisulsoup實現(接下來要將的內容)
2.3 爬蟲基本邏輯(二):【分頁網頁url採集】-【資料採集】
該邏輯也可以稱為:「迴圈標籤採集」:1個分頁網頁採集n條資料
優勢:相比於第一種邏輯,訪問網頁次數較少,容易避開反爬
劣勢:相比於第一種邏輯,獲取資訊較少
第一步【分頁網頁url採集】→ 得到乙個分頁的urllst1
。。。。。。
② 這裡由於網頁只需要更改「page=…」,所以通過for迴圈即可
第二步【資料採集】→ 每條資料存進乙個dict,所有dict組成乙個datalst列表
① 通過for迴圈依次採集該頁面的多個標籤
② 通過beautisulsoup實現,進行網頁的解析,獲取標籤資訊全部存到dict裡面
網路資源訪問工具:requests
掌握requests工具包,學會通過python訪問**,並做簡單的內容識別
網頁資訊解析方法:xpath與beautifulsoup
掌握beautifulsoup工具包,理解xpath網頁解析方法,基本掌握靜態網頁的頁面資料識別
爬蟲資料庫:mongodb
掌握非關聯式資料庫mongodb,並且學會用python連線及使用mongodb,管理採集資料
Python爬蟲(三) 網頁解析
所需庫from bs4 import beautifulsoup專案 示例html askurl 獲取頁面html文字 soup beautifulsoup html,html.parser 使用html解析來處理html變數 變數名 item1 soup.find all article 匹配ar...
python爬蟲 五 網頁解析器
網頁解析器 是從網頁中提取有價值資料的工具 python 有四種網頁解析器 1 正規表示式 模糊匹配解析 2 html.parser 結構化解析 3 beautiful soup 結構化解析 4 lxml 結構化解析 其中 beautiful soup 功能很強大,有html.parse和 lxml...
python爬蟲基礎04 網頁解析庫xpath
xpath 是一門在 xml 文件中查詢資訊的語言。xpath 用於在 xml 文件中通過元素和屬性進行導航。相比於beautifulsoup,xpath在提取資料時會更加的方便。在python中很多庫都有提供xpath的功能,但是最基本的還是lxml這個庫,效率最高。在之前beautifulsou...