兩種模式:code和markdown
(1)code模式可以直接編寫py**
(2)markdown可以直接進行樣式的指定
(3)雙擊可以重新進行編輯
(4)快捷鍵總結:
插入cell:a b(5)ipynb檔案相當於是放在快取中,沒有先後順序.快取機制2.第二種開啟anaconda的方式:刪除cell:x
切換cell的模式:m y
執行cell:shift+enter
tab:自動補全
shift+tab:開啟幫助文件
(1)圖1
(2)圖2
(3)圖3,下圖兩個路徑,也是也已開啟瀏覽器的內容的
上邊的方式開啟,就不需要配置環境變數了.
1.什麼是爬蟲?
我們用過很多:就是瀏覽器本身就是
概念:通過編寫程式,模擬瀏覽器上網,讓其去網際網路上獲取資料的過程.
2.爬蟲的分類
(2)聚焦爬蟲:根據指定的需求獲取頁面中指定的區域性資料
(3)增量式爬蟲:用來監測**資料更新的情況,爬取**最新更新出來的資料
(4)分布式爬蟲:講解完scrapy之後,再涉及到
3.反爬本質
反反爬策略:讓爬蟲程式通過破解反爬機制獲取資料
4.協議
(1)robots協議(可以不遵守):一種反爬協議,規定哪些資料可爬,哪些不可以爬,必須雙方遵循才行.
防君子不防小人的協議
(2)http協議(超文字傳輸協議):client和server進行資料互動的形式(一定要善於總結)
https協議:安全的http
人與人之間其實就是在進行資料互動.
-使用到的頭資訊5.https:安全的http協議請求頭資訊:
--user-agent:請求載體的身份標識(瀏覽器或者爬蟲程式都行,爬蟲通過偽裝的)
--content-type:可以是json或者text或者js,作用:說明服務端響應回客戶端的資料格式或者資料型別.
證書秘鑰加密?
在理解上邊的加密方式之前,我們先了解"對稱秘鑰加密","非對稱秘鑰加密"
初步了解即可
三種加密方式:證書秘鑰加密,對稱秘鑰加密,非對稱金鑰加密
(1)ssl加密技術:
ssl採用的加密技術叫做"共享金鑰加密",也叫作"對稱秘鑰加密".
缺點:一旦被三方攔截,就會被破解秘鑰和公鑰,密文就可能被破解
(2)非對稱加密
缺點:(1)效率比較低,(2)客戶端不知道是不是服務端傳送的公鑰.
(3)證書秘鑰加密:攻克了非對稱秘鑰加密的問題
三方機構:證書認證機構
參考部落格:
使用BeautifulSoup的簡單小爬蟲
安裝beautifulsoup 先從官網上down下來 然後解壓再用python安裝 官網位址 具體還是網上搜吧 超級多 爬取模組 其實貼吧的 還是比較容易拼接的 所以有挺多人拿貼吧練手來著 def start self for i in range self.topic limit 50 self...
nodejs使用cherrio實現簡單爬蟲
描述 node 是乙個基於 google 的 v8 引擎設計的服務端的 js 語言,擅長非同步 io 請求。方便易用,有很多成型的 web 框架,例如 express koa egg nest 等。如需深入了解,自行查閱資料 需要的模組 簡單的 demo 新建檔案 test.js const fet...
python 使用python做乙個簡單爬蟲
爬蟲的步驟如下 1.獲取資料 2.篩選資料 3.儲存資料 4.顯示資料 在這裡我們主要使用urllib2庫來對網頁進行爬取,本次我們爬取的參考 是 我們可以觀察內容 發現正文的內容都在這個標籤內,所以我們可以通過正則篩選出內容 正則內容如下 pattern re.compile r re.s 然後再...