Python爬蟲學習(一) 基本介紹

2021-10-24 04:57:55 字數 1094 閱讀 2890

爬蟲:通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。

聚焦爬蟲:聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如:獲取豆瓣上電影的名稱和影評,而不是獲取整張頁面中所有的資料值。

門戶**通過制定相應的策略和技術手段,防止爬蟲程式進行**資料的爬取。

爬蟲程式通過相應的策略和技術手段,破解門戶**的反爬蟲手段,從而爬取到相應的資料。

幾乎是和爬蟲技術誕生的同一時刻,反爬蟲技術也誕生了。在90年代開始有搜尋引擎**利用爬蟲技術抓取**時,一些搜尋引擎從業者和**站長通過郵件討論定下了一項「君子協議」—— robots.txt。即**有權規定**中哪些內容可以被爬蟲抓取,哪些內容不可以被爬蟲抓取。這樣既可以保護隱私和敏感資訊,又可以被搜尋引擎收錄、增加流量。

歷史上第一樁關於爬蟲的官司誕生在2023年,ebay將一家聚合**資訊的比價**be告上了法庭,ebay聲稱自己已經將哪些資訊不能抓取寫進了robots協議中,但be違反了這一協議。但be認為ebay上的內容屬於使用者集體貢獻而不歸使用者所有,爬蟲協議不能用作法律參考。最後經過業內反覆討論和法庭上的幾輪唇槍舌戰,最終以ebay勝訴告終,也開了用爬蟲robots協議作為主要參考的先河。

官方概念:http協議是hyper text transfer protocol(超文字傳輸協議)的縮寫,是用於從全球資訊網(www:world wide web )伺服器傳輸超文字到本地瀏覽器的傳送協議。

簡單理解:http協議就是伺服器(server)和客戶端(client)之間進行資料互動(相互傳輸資料)的一種形式。

常用請求頭資訊

1

. user-agent:請求載體的身份標識

2

常用響應頭資訊

content-type :伺服器響應回客戶端的資料型別
– https (secure hypertext transfer protocol)安全超文字傳輸協議,https是在http上建立ssl加密層,並對傳輸資料進行加密,是http協議的安全版。

加密方式

一 python爬蟲學習 爬蟲基本概念

例如 url 專業一些的叫法是統一資源定位符 uniform resource locator 它的一般格式如下 帶方括號的為可選項 protocol hostname port path parameters query fragment url 的格式主要由前個三部分組成 443 這兩個url都...

python爬蟲學習 01爬蟲介紹

前戲 1.你是否在節假日出行高峰的時候,想快速搶購火車票成功 2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品 什麼是爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 實際應用 就業 爬蟲究竟是合法還是違法的?如何在使用編寫爬蟲的過程中避免進入局子...

Python爬蟲筆記 一 爬蟲基本入門

最近在做乙個專案,這個專案需要使用網路爬蟲從特定 上爬取資料,於是乎,我打算寫乙個爬蟲系列的文章,與大家分享如何編寫乙個爬蟲。這是這個專案的第一篇文章,這次就簡單介紹一下python爬蟲,後面根據專案進展會持續更新。一 何謂網路爬蟲 網路爬蟲的概念其實不難理解,大家可以將網際網路理解為一張巨大無比的...