前戲:
1.你是否在節假日出行高峰的時候,想快速搶購火車票成功…
2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品…
什麼是爬蟲:
- 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。
爬蟲的價值:
- 實際應用
- 就業
爬蟲究竟是合法還是違法的?
如何在使用編寫爬蟲的過程中避免進入局子的厄運呢?
- 時常的優化自己的程式,避免干擾被訪問**的正常執行
- 在使用,傳播爬取到的資料時,審查抓取到的內容,如果發現了涉及到使用者隱私
商業機密等敏感內容需要及時停止爬取或傳播
爬蟲在使用場景中的分類
- 通用爬蟲:
抓取系統重要組成部分。抓取的是一整張頁面資料。
- 聚焦爬蟲:
是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的區域性內容。
- 增量式爬蟲:
檢測**中資料更新的情況。只會抓取**中最新更新出來的資料。
爬蟲的矛與盾
反爬機制
門戶**,可以通過制定相應的策略或者技術手段,防止爬蟲程式進行**資料的爬取。
http協議
- 概念:就是伺服器和客戶端進行資料互動的一種形式。
常用請求頭資訊
- user-agent:請求載體的身份標識
- connection:請求完畢後,是斷開連線還是保持連線
常用響應頭資訊
- content-type:伺服器響應回客戶端的資料型別
https協議:
- 安全的超文字傳輸協議
加密方式
- 對稱秘鑰加密
- 非對稱秘鑰加密
- 證書秘鑰加密
Python爬蟲學習01
由於自身對python有比較大的興趣,但是畢竟 有業務需求才能推動學習 在休息的時候看了幾天的基礎,對python的基礎還是可以掌握的,但是一些api的方法確實沒有多大興趣,畢竟乙個乙個api的學習python這種方法,於我而言,確實想睡覺,所以我想以乙個點帶面的學習python,爬蟲是python...
python爬蟲筆記01
精通python網路爬蟲 筆記 下面 大部分來自此書,僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案 示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部,賦予...
爬蟲學習記錄 01
在檔案儲存及資料型別中的一些小問題 結語python 3.6 使用原生自帶的 urllib 模組進行爬蟲的開始 匯入模組urllib的request框架 import urllib.request 使用urlopen方法模擬使用者開啟網頁,以www.baidu.com為例。import urllib...