python爬蟲學習 01爬蟲介紹

2021-10-08 02:41:38 字數 869 閱讀 4430

前戲:

1.你是否在節假日出行高峰的時候,想快速搶購火車票成功…

2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品…

什麼是爬蟲:

- 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。

爬蟲的價值:

- 實際應用

- 就業

爬蟲究竟是合法還是違法的?

如何在使用編寫爬蟲的過程中避免進入局子的厄運呢?

- 時常的優化自己的程式,避免干擾被訪問**的正常執行

- 在使用,傳播爬取到的資料時,審查抓取到的內容,如果發現了涉及到使用者隱私

商業機密等敏感內容需要及時停止爬取或傳播

爬蟲在使用場景中的分類

- 通用爬蟲:

抓取系統重要組成部分。抓取的是一整張頁面資料。

- 聚焦爬蟲:

是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的區域性內容。

- 增量式爬蟲:

檢測**中資料更新的情況。只會抓取**中最新更新出來的資料。

爬蟲的矛與盾

反爬機制

門戶**,可以通過制定相應的策略或者技術手段,防止爬蟲程式進行**資料的爬取。

http協議

- 概念:就是伺服器和客戶端進行資料互動的一種形式。

常用請求頭資訊

- user-agent:請求載體的身份標識

- connection:請求完畢後,是斷開連線還是保持連線

常用響應頭資訊

- content-type:伺服器響應回客戶端的資料型別

https協議:

- 安全的超文字傳輸協議

加密方式

- 對稱秘鑰加密

- 非對稱秘鑰加密

- 證書秘鑰加密

Python爬蟲學習01

由於自身對python有比較大的興趣,但是畢竟 有業務需求才能推動學習 在休息的時候看了幾天的基礎,對python的基礎還是可以掌握的,但是一些api的方法確實沒有多大興趣,畢竟乙個乙個api的學習python這種方法,於我而言,確實想睡覺,所以我想以乙個點帶面的學習python,爬蟲是python...

python爬蟲筆記01

精通python網路爬蟲 筆記 下面 大部分來自此書,僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案 示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部,賦予...

爬蟲學習記錄 01

在檔案儲存及資料型別中的一些小問題 結語python 3.6 使用原生自帶的 urllib 模組進行爬蟲的開始 匯入模組urllib的request框架 import urllib.request 使用urlopen方法模擬使用者開啟網頁,以www.baidu.com為例。import urllib...