Python爬蟲學習（一）基本介紹

爬蟲：通過編寫程式，模擬瀏覽器上網，然後讓其去網際網路上抓取資料的過程。

聚焦爬蟲：聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如：獲取豆瓣上電影的名稱和影評，而不是獲取整張頁面中所有的資料值。

門戶**通過制定相應的策略和技術手段，防止爬蟲程式進行**資料的爬取。

爬蟲程式通過相應的策略和技術手段，破解門戶**的反爬蟲手段，從而爬取到相應的資料。

幾乎是和爬蟲技術誕生的同一時刻，反爬蟲技術也誕生了。在90年代開始有搜尋引擎**利用爬蟲技術抓取**時，一些搜尋引擎從業者和**站長通過郵件討論定下了一項「君子協議」—— robots.txt。即**有權規定**中哪些內容可以被爬蟲抓取，哪些內容不可以被爬蟲抓取。這樣既可以保護隱私和敏感資訊，又可以被搜尋引擎收錄、增加流量。

歷史上第一樁關於爬蟲的官司誕生在2023年，ebay將一家聚合**資訊的比價**be告上了法庭，ebay聲稱自己已經將哪些資訊不能抓取寫進了robots協議中，但be違反了這一協議。但be認為ebay上的內容屬於使用者集體貢獻而不歸使用者所有，爬蟲協議不能用作法律參考。最後經過業內反覆討論和法庭上的幾輪唇槍舌戰，最終以ebay勝訴告終，也開了用爬蟲robots協議作為主要參考的先河。

官方概念：http協議是hyper text transfer protocol（超文字傳輸協議）的縮寫,是用於從全球資訊網（www:world wide web ）伺服器傳輸超文字到本地瀏覽器的傳送協議。

簡單理解：http協議就是伺服器（server）和客戶端（client）之間進行資料互動（相互傳輸資料）的一種形式。

常用請求頭資訊：

1 . user-agent：請求載體的身份標識

2

常用響應頭資訊：

content-type ：伺服器響應回客戶端的資料型別

– https (secure hypertext transfer protocol)安全超文字傳輸協議，https是在http上建立ssl加密層，並對傳輸資料進行加密，是http協議的安全版。

加密方式：

Python爬蟲學習（一）基本介紹

一 python爬蟲學習爬蟲基本概念

python爬蟲學習 01爬蟲介紹

Python爬蟲筆記一爬蟲基本入門

Python爬蟲學習（一） 基本介紹

一 python爬蟲學習 爬蟲基本概念

python爬蟲學習 01爬蟲介紹

Python爬蟲筆記 一 爬蟲基本入門

相關推薦

Python爬蟲學習（一）基本介紹

一 python爬蟲學習爬蟲基本概念

Python爬蟲筆記一爬蟲基本入門