小爬爬1 jupyter簡單使用 爬蟲相關概念

2022-05-10 01:31:39 字數 1724 閱讀 5883

兩種模式:code和markdown

(1)code模式可以直接編寫py**

(2)markdown可以直接進行樣式的指定

(3)雙擊可以重新進行編輯

(4)快捷鍵總結:

插入cell:a    b

刪除cell:x

切換cell的模式:m y

執行cell:shift+enter

tab:自動補全

shift+tab:開啟幫助文件

(5)ipynb檔案相當於是放在快取中,沒有先後順序.快取機制2.第二種開啟anaconda的方式:

(1)圖1

(2)圖2

(3)圖3,下圖兩個路徑,也是也已開啟瀏覽器的內容的

上邊的方式開啟,就不需要配置環境變數了.

1.什麼是爬蟲?

我們用過很多:就是瀏覽器本身就是

概念:通過編寫程式,模擬瀏覽器上網,讓其去網際網路上獲取資料的過程.

2.爬蟲的分類

(2)聚焦爬蟲:根據指定的需求獲取頁面中指定的區域性資料

(3)增量式爬蟲:用來監測**資料更新的情況,爬取**最新更新出來的資料

(4)分布式爬蟲:講解完scrapy之後,再涉及到

3.反爬本質

反反爬策略:讓爬蟲程式通過破解反爬機制獲取資料

4.協議

(1)robots協議(可以不遵守):一種反爬協議,規定哪些資料可爬,哪些不可以爬,必須雙方遵循才行.

防君子不防小人的協議

(2)http協議(超文字傳輸協議):client和server進行資料互動的形式(一定要善於總結)

https協議:安全的http

人與人之間其實就是在進行資料互動.

-使用到的頭資訊

請求頭資訊:

--user-agent:請求載體的身份標識(瀏覽器或者爬蟲程式都行,爬蟲通過偽裝的)

--content-type:可以是json或者text或者js,作用:說明服務端響應回客戶端的資料格式或者資料型別.

5.https:安全的http協議

證書秘鑰加密?

在理解上邊的加密方式之前,我們先了解"對稱秘鑰加密","非對稱秘鑰加密"

初步了解即可

三種加密方式:證書秘鑰加密,對稱秘鑰加密,非對稱金鑰加密

(1)ssl加密技術:

ssl採用的加密技術叫做"共享金鑰加密",也叫作"對稱秘鑰加密".

缺點:一旦被三方攔截,就會被破解秘鑰和公鑰,密文就可能被破解

(2)非對稱加密

缺點:(1)效率比較低,(2)客戶端不知道是不是服務端傳送的公鑰.

(3)證書秘鑰加密:攻克了非對稱秘鑰加密的問題

三方機構:證書認證機構

參考部落格:

使用BeautifulSoup的簡單小爬蟲

安裝beautifulsoup 先從官網上down下來 然後解壓再用python安裝 官網位址 具體還是網上搜吧 超級多 爬取模組 其實貼吧的 還是比較容易拼接的 所以有挺多人拿貼吧練手來著 def start self for i in range self.topic limit 50 self...

nodejs使用cherrio實現簡單爬蟲

描述 node 是乙個基於 google 的 v8 引擎設計的服務端的 js 語言,擅長非同步 io 請求。方便易用,有很多成型的 web 框架,例如 express koa egg nest 等。如需深入了解,自行查閱資料 需要的模組 簡單的 demo 新建檔案 test.js const fet...

python 使用python做乙個簡單爬蟲

爬蟲的步驟如下 1.獲取資料 2.篩選資料 3.儲存資料 4.顯示資料 在這裡我們主要使用urllib2庫來對網頁進行爬取,本次我們爬取的參考 是 我們可以觀察內容 發現正文的內容都在這個標籤內,所以我們可以通過正則篩選出內容 正則內容如下 pattern re.compile r re.s 然後再...