python爬蟲學習 01爬蟲介紹

前戲：

1.你是否在節假日出行高峰的時候，想快速搶購火車票成功…

2.你是否在網上購物的時候，想快速且精準的定位到口碑質量最好的商品…

什麼是爬蟲：

- 通過編寫程式，模擬瀏覽器上網，然後讓其去網際網路上抓取資料的過程。

爬蟲的價值：

- 實際應用

- 就業

爬蟲究竟是合法還是違法的？

如何在使用編寫爬蟲的過程中避免進入局子的厄運呢？

- 時常的優化自己的程式，避免干擾被訪問**的正常執行

- 在使用，傳播爬取到的資料時，審查抓取到的內容，如果發現了涉及到使用者隱私

商業機密等敏感內容需要及時停止爬取或傳播

爬蟲在使用場景中的分類

- 通用爬蟲：

抓取系統重要組成部分。抓取的是一整張頁面資料。

- 聚焦爬蟲：

是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的區域性內容。

- 增量式爬蟲：

檢測**中資料更新的情況。只會抓取**中最新更新出來的資料。

爬蟲的矛與盾

反爬機制

門戶**，可以通過制定相應的策略或者技術手段，防止爬蟲程式進行**資料的爬取。

http協議

- 概念：就是伺服器和客戶端進行資料互動的一種形式。

常用請求頭資訊

- user-agent：請求載體的身份標識

- connection：請求完畢後，是斷開連線還是保持連線

常用響應頭資訊

- content-type：伺服器響應回客戶端的資料型別

https協議：

- 安全的超文字傳輸協議

加密方式

- 對稱秘鑰加密

- 非對稱秘鑰加密

- 證書秘鑰加密

Python爬蟲學習01

由於自身對python有比較大的興趣，但是畢竟有業務需求才能推動學習在休息的時候看了幾天的基礎，對python的基礎還是可以掌握的，但是一些api的方法確實沒有多大興趣，畢竟乙個乙個api的學習python這種方法，於我而言，確實想睡覺，所以我想以乙個點帶面的學習python，爬蟲是python...

python爬蟲筆記01

精通python網路爬蟲筆記下面大部分來自此書，僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部，賦予...

爬蟲學習記錄 01

在檔案儲存及資料型別中的一些小問題結語python 3.6 使用原生自帶的 urllib 模組進行爬蟲的開始匯入模組urllib的request框架 import urllib.request 使用urlopen方法模擬使用者開啟網頁，以www.baidu.com為例。import urllib...

python爬蟲學習 01爬蟲介紹

Python爬蟲學習01

python爬蟲筆記01

爬蟲學習記錄 01

相關推薦