小爬爬1 jupyter簡單使用爬蟲相關概念

兩種模式:code和markdown

(1)code模式可以直接編寫py**

(2)markdown可以直接進行樣式的指定

(3)雙擊可以重新進行編輯

(4)快捷鍵總結:

插入cell:a b

刪除cell:x

切換cell的模式:m y

執行cell:shift+enter

tab:自動補全

shift+tab:開啟幫助文件

(5)ipynb檔案相當於是放在快取中,沒有先後順序.快取機制2.第二種開啟anaconda的方式:

(1)圖1

(2)圖2

(3)圖3,下圖兩個路徑,也是也已開啟瀏覽器的內容的

上邊的方式開啟,就不需要配置環境變數了.

1.什麼是爬蟲?

我們用過很多:就是瀏覽器本身就是

概念:通過編寫程式,模擬瀏覽器上網,讓其去網際網路上獲取資料的過程.

2.爬蟲的分類

(2)聚焦爬蟲:根據指定的需求獲取頁面中指定的區域性資料

(3)增量式爬蟲:用來監測**資料更新的情況,爬取**最新更新出來的資料

(4)分布式爬蟲:講解完scrapy之後,再涉及到

3.反爬本質

反反爬策略:讓爬蟲程式通過破解反爬機制獲取資料

4.協議

(1)robots協議(可以不遵守):一種反爬協議,規定哪些資料可爬,哪些不可以爬,必須雙方遵循才行.

防君子不防小人的協議

(2)http協議(超文字傳輸協議):client和server進行資料互動的形式(一定要善於總結)

https協議:安全的http

人與人之間其實就是在進行資料互動.

-使用到的頭資訊

請求頭資訊:

--user-agent:請求載體的身份標識(瀏覽器或者爬蟲程式都行,爬蟲通過偽裝的)

--content-type:可以是json或者text或者js,作用:說明服務端響應回客戶端的資料格式或者資料型別.

5.https:安全的http協議

證書秘鑰加密?

在理解上邊的加密方式之前,我們先了解"對稱秘鑰加密","非對稱秘鑰加密"

初步了解即可

三種加密方式:證書秘鑰加密,對稱秘鑰加密,非對稱金鑰加密

(1)ssl加密技術:

ssl採用的加密技術叫做"共享金鑰加密",也叫作"對稱秘鑰加密".

缺點:一旦被三方攔截,就會被破解秘鑰和公鑰,密文就可能被破解

(2)非對稱加密

缺點:(1)效率比較低,(2)客戶端不知道是不是服務端傳送的公鑰.

(3)證書秘鑰加密:攻克了非對稱秘鑰加密的問題

三方機構:證書認證機構

參考部落格:

使用BeautifulSoup的簡單小爬蟲

安裝beautifulsoup 先從官網上down下來然後解壓再用python安裝官網位址具體還是網上搜吧超級多爬取模組其實貼吧的還是比較容易拼接的所以有挺多人拿貼吧練手來著 def start self for i in range self.topic limit 50 self...

nodejs使用cherrio實現簡單爬蟲

描述 node 是乙個基於 google 的 v8 引擎設計的服務端的 js 語言，擅長非同步 io 請求。方便易用，有很多成型的 web 框架，例如 express koa egg nest 等。如需深入了解，自行查閱資料需要的模組簡單的 demo 新建檔案 test.js const fet...

python 使用python做乙個簡單爬蟲

爬蟲的步驟如下 1.獲取資料 2.篩選資料 3.儲存資料 4.顯示資料在這裡我們主要使用urllib2庫來對網頁進行爬取，本次我們爬取的參考是我們可以觀察內容發現正文的內容都在這個標籤內，所以我們可以通過正則篩選出內容正則內容如下 pattern re.compile r re.s 然後再...

小爬爬1 jupyter簡單使用 爬蟲相關概念

使用BeautifulSoup的簡單小爬蟲

nodejs使用cherrio實現簡單爬蟲

python 使用python做乙個簡單爬蟲

相關推薦

小爬爬1 jupyter簡單使用爬蟲相關概念