爬蟲:通過編寫程式模擬瀏覽器,然後從網際網路當中去進行指定資料的抓取操作。
爬蟲在使用場景當中的分類:
通用爬蟲:
是搜尋引擎當中重要的組成部分,用於抓取整個頁面
聚焦爬蟲:
是建立在通用爬蟲的基礎之上的,用於抓取頁面當中特定的區域性內容
增量爬蟲:
用於監測**當中資料跟新的情況,會爬取**當中最新的資料資訊
反爬蟲機制:
反反爬策略:
用於攻擊門戶**當中的一些反爬蟲機制
robots.txt協議
君子協議:明確的規定了**當中那些資料可以被進行爬取,那些資料是不能夠被進行爬取。
常用請求的頭資訊:
user-agent:是請求載體的身份標識
connection:請求完畢之後是否繼續保持請求
content-type:伺服器回應使用者的資料資訊型別
https:s是securet表示資訊傳遞是安全的。http則是不安全的傳遞
加密方式:
對稱秘鑰加密:
c端向s端傳遞資料的時候會對資料進行加密之後,將密文和秘鑰都傳遞到s端
非對稱加密:
客戶端在向伺服器端傳送請求之前,伺服器端會先發乙個公鑰給客戶端,客戶端根據公鑰來實現對資料進行加密之後,將密文傳遞給伺服器端,伺服器端拿到密文之後再使用秘鈅來實現對密文進行解密操作。
缺點:如果伺服器端傳送給客戶端的公鑰被第三方擷取之後並偷換為第三方公鑰,然後客戶端根據第三方公鑰進行加密之後的密文資料就會被洩露出去。
證書認證機構:
伺服器端傳送的公鑰資訊是經過第三方證書認證機構進行認定的,可以確保該公鑰的合法性和可信性,而不是被攻擊者偷偷替換掉的公鑰,這樣使用者就可以放心的使用認證之後的公鑰來實現資訊的加密操作。
Python學習 基本概念
python語言是一種解釋型 物件導向 動態資料型別的高階程式語言。解釋型語言的執行方式 源 直譯器 輸出 編譯型語言的執行方式 源 編譯 目標 執行 輸出 變數 用來儲存一些之後可能會變化的值 變數命名規則 變數名必須是大小寫英文本母 數字或下劃線的組合,不能用數字開頭 關鍵字不能用於命名變數 如...
Python學習01 基本概念
false none true and as assert break class continue def del elif else except finally for from global if import in is lambda nonlocal not or pass raise ...
python基本概念
1.單引號,雙引號與三引號 使用單引號 你可以用單引號指示字串,就如同 quote me on this 這樣。所有的空白,即空格和製表符都照原樣保留。使用雙引號 在雙引號中的字串與單引號中的字串的使用完全相同,例如 what s your name?使用三引號 或 利用三引號,你可以指示乙個多行的...