爬蟲通過編寫程式來模擬瀏覽器上網,讓其去網際網路上抓取資料。
一般用於抓取頁面上特定的資料,並運用各種資料分析手段來使資料體現使用價值。
爬蟲本身在法律中是不被禁止的,但爬取資料具有違法風險。
一般的搜尋引擎都具有自己的抓取系統,這樣的爬取是被支援的。
但如搶票爬蟲等損害他人利益的爬蟲即為惡意爬蟲。惡意爬蟲一般體現在:
爬蟲干擾被訪問**的正常運營。
爬蟲抓取了受到法律保護的特定型別的資料或資訊。
在編寫爬蟲的過程中需注意的事項:
時常優化程式,不要干擾被訪問**的正常執行。
傳播爬取的資料時需審查抓取到的內容,發現了涉及使用者隱私/商業機密等敏感內容,則需要及時停止爬取和傳播。
通用爬蟲
搜尋引擎抓取系統的重要組成部分。抓取的是一整張頁面
聚焦爬蟲
是建立在通用爬蟲的基礎之上,抓取的是頁面中特定的區域性內容。
增量式爬蟲
檢測**中資料更新的情況,只會抓取**中最新更新的資料。
「君子協議」
規定**能夠被爬取和不能夠被爬取的資料。但並未強制反爬。
訪問方法:**網域名稱/robots.txt
可以看到**不允許爬取(disallow)的目錄資料
在爬取資料時需要**嚴!格!遵!守!**robots協議
http/https協議:超文字傳輸協議
概念:伺服器與客戶端進行資料交換的形式,相當於一種語言。
http常用請求頭資訊(request headers):
user-agent:表示請求載體的身份標識,是一組字串,包含如瀏覽器版本、作業系統版本等資訊。請求載體相當於當前瀏覽器。
connection:表示請求成功後是否斷開連線。包含『close』和『keep alive』兩種值。
常用相應頭資訊:
content-type:伺服器相應回客戶端的資料型別。
這段我也聽不太懂,就搬了老師講的話
概念:安全的http協議,涉及資料傳輸和互動中的資料加密。
加密方式:
對稱金鑰加密:加密流程如下:客戶端發起請求,並把資料進行加密,再把金鑰和密文同時傳送給伺服器,伺服器再進行解密。但如果請求被攔截,則攔截資訊的中間機構能輕易對密文進行解密。
非對稱金鑰加密:由伺服器端設定加密方式(公鑰),將加密方式傳送給客戶端,客戶端使用該加密方式將資料進行加密,加密後將密文傳送給伺服器端,伺服器端接收了密文後自行解密。缺點是加密方式的效率較低,影響通訊速度,且如果公鑰被中間機構攔截,中間機構會將金鑰進行篡改,再傳送給客戶端。
證書金鑰加密(https使用的加密方式):伺服器設定公鑰,公鑰被提交到證書認證機構進行審核,證書認證機構是伺服器和客戶端都能夠信任的機構,該機構對公鑰進行數字簽名防偽,並將公鑰封裝到證書中,傳送給客戶端,客戶端使用該公鑰對資訊進行加密,再將密文傳送給客戶端。能夠避免非對稱金鑰加密的安全隱患。
Python自學爬蟲
解除安裝前面 這是乙個半自動爬蟲,也就是手動的比較多 也是個人學習效果展示 如果對看到的人有幫助 那再好不過了 匯入正規表示式模組和csv模組 import re import csv 讀取檔案 with open source.txt r encoding gbk as f all str f.r...
杭州自學python爬蟲 自學PYTHON爬蟲
response urllib2.urlopen urlopen url,data,timeout 第乙個引數url即為url,第二個引數data是訪問url時要傳送的資料,第三個timeout是設定超時時間。第二三個引數是可以不傳送的,data預設為空none,timeout預設為 socket....
python免費自學爬蟲 python爬蟲學習
近日,學習爬蟲基礎,自己寫了乙個小指令碼。目標 每天晚上定時傳送第二天的工作專案到qq郵箱。目的 頭天晚上得到第二天的工作計畫,好決定頭天晚上是否能喝酒過量 是否能麻將通宵等等等等。哈哈!思路 1 從停電申請系統,統計出第二日的工作專案。2 每天晚上定時傳送該專案到qq郵箱。要解決的主要問題 1 從...