爬蟲基本原理

一、爬蟲介紹：

-本質，

-就是想**傳送http請求，拿回一些頁面/json格式資料（request）

-處理資料，解析出有用的東西（re，bs4）

-儲存（mysql，檔案，cvs，redis，mongodb，es）

-分析-cookie池和**池

-正向**和反向**

（正向**-**自己，反向**-**伺服器）

爬蟲運用模組

-requests模組

-beautiflsoup

-requests+bs4爬新聞

-selenium

-購物**

-request-html

-模擬登陸知乎（破解加密登陸）

-破解驗證碼

-mogodb

-高效能相關

-scrapy框架（爬蟲界的django）

-分布式爬蟲 scrapy-redis

一爬蟲是什麼?爬蟲要做的是什麼？使用者獲取網路資料的方式是爬蟲程式要做的就是區別在於我們的爬蟲程式只提取網頁中對我們有用的資料為什麼要做爬蟲爬蟲的價值網際網路中最有價值的便是資料，比如天貓的商品資訊，鏈家網的租房資訊，雪球網的投資資訊等等，這些資料都代表了各個行業的真金可以說，...

三種爬蟲方式通用爬蟲抓取系統重要組成部分，獲取的是整張頁面資料聚焦爬蟲建立在通用爬蟲之上，抓取頁面指定的區域性內容增量式爬蟲檢測資料更新的情況，只抓取更新出來的資料 https協議安全的超文字傳輸協議證書秘鑰加密請求頭響應頭加密方式傳送請求獲取響應內容解析內容儲存資料...

請求並提取資料的自動化程式發起請求通過http庫向目標站點發起請求，即傳送個request，請求可以包含額外的headers等資訊，等待伺服器響應。獲取相應內容解析內容得到的內容可能是html，可以用正規表示式頁解析庫進解析。可能是json，可以直接轉為json物件解析，可能是...