爬去網頁
解析資料
難點:爬蟲與反爬蟲的博弈
通用爬蟲:
功能:訪問網頁-抓取資料-資料儲存-資料處理-提供檢索服務
抓取過程:
給定一些起始url,放入待爬取佇列
從佇列中獲取url物件,開始爬取資料
分析網頁,獲取網頁內所有的url,入隊,繼續重複第二步
主動給搜尋引擎提交url
robots協議:
約定的協議,新增robots.txt 說明哪些不被爬取
自己寫的爬蟲無需遵守
根據pagerank值進行排名(參考**流量,點選率等指標)
缺點:
爬取太多無用資料
不能根據使用者需求來精準獲取資料
聚焦爬蟲:
功能:根據需求,實現爬蟲程式抓取需要的資料
原理:
網頁都有唯一的url
網頁都是html組成
傳輸協議都是http/https
設計思路:
獲取url——確定要爬取的url
如何訪問——模擬瀏覽器通過http協議訪問url,獲取伺服器返回的html**
如何解析——解析html字串(根據一定規則提取需要的資料)
3.整體內容
python 語法
使用python庫
urllib.request
urllib.parse
requests
scrapy
解析內容:
正規表示式
xpath
bs4jsonpath
採集動態html
scrapy:高效能非同步爬蟲框架
分布式爬蟲:scrapy——redis元件
反爬蟲的一般手段:
user—agent
**ip
驗證碼訪問
動態載入網頁
資料加密
爬蟲-反爬蟲-反反爬蟲
爬去網頁
解析資料
難點:爬蟲與反爬蟲的博弈
通用爬蟲:
功能:訪問網頁-抓取資料-資料儲存-資料處理-提供檢索服務
抓取過程:
給定一些起始url,放入待爬取佇列
從佇列中獲取url物件,開始爬取資料
分析網頁,獲取網頁內所有的url,入隊,繼續重複第二步
主動給搜尋引擎提交url
robots協議:
約定的協議,新增robots.txt 說明哪些不被爬取
自己寫的爬蟲無需遵守
根據pagerank值進行排名(參考**流量,點選率等指標)
缺點:
爬取太多無用資料
不能根據使用者需求來精準獲取資料
聚焦爬蟲:
功能:根據需求,實現爬蟲程式抓取需要的資料
原理:
網頁都有唯一的url
網頁都是html組成
傳輸協議都是http/https
設計思路:
獲取url——確定要爬取的url
如何訪問——模擬瀏覽器通過http協議訪問url,獲取伺服器返回的html**
如何解析——解析html字串(根據一定規則提取需要的資料)
3.整體內容
python 語法
使用python庫
urllib.request
urllib.parse
requests
scrapy
解析內容:
正規表示式
xpath
bs4jsonpath
採集動態html
scrapy:高效能非同步爬蟲框架
分布式爬蟲:scrapy——redis元件
反爬蟲的一般手段:
user—agent
**ip
驗證碼訪問
動態載入網頁
資料加密
爬蟲-反爬蟲-反反爬蟲
python爬蟲學習筆記
一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...
scrapy 爬蟲學習筆記
1.安裝scrapy pip install i 源 scrapy 2.手動建立scarpy專案 scrapy startproject 專案名稱 3.scrapy genspider jobbole blog.jobbole.com 使用自帶模板 4.除錯 修改setting檔案中obey rob...
Python爬蟲學習筆記
1.使用build opener 修改報頭 headers user agent 定義變數headers儲存user agent資訊 opener urllib.request.build opener 建立opener物件並賦給變數 openeropener.addheaders headers ...