由於本人最近正在學習爬蟲的相關知識,對於爬蟲的很多了解的都不是透徹,有什麼錯誤的地方,還請不吝指出。話不多說,進入正題。第一天,主要就是介紹什麼是爬蟲。
網路爬蟲又稱網路蜘蛛、網路螞蟻、網路機械人 蠕蟲等,可以自動化瀏覽網路中的資訊,當然瀏覽資訊的時候需要按照我們制定的規則進行,這些規則我們稱之為網路爬蟲演算法。使用python可以很方便地編寫出爬蟲程式,進行網際網路資訊的自動化檢索。
爬取網頁:爬取整個網頁 包含了網頁中所有得內容。
解析資料:將網頁中你得到的資料 進行解析。
難點:爬蟲和反爬蟲之間的博弈。
user-agent:
ser agent中文名為使用者**,簡稱 ua,它是乙個特殊字串頭,使得伺服器能夠識別客戶使用的作業系統及版本、cpu 型別、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器外掛程式等。
什麼是高匿名、匿名和透明**?它們有什麼區別?
1.使用透明**ip,對方伺服器可以知道你使用了**,並且也知道你的真實ip。
2.使用匿名**ip,對方伺服器可以知道你使用了**,但不知道你的真實ip。
3.使用高匿名**ip,對方伺服器不知道你使用了**,更不知道你的真實ip。
這裡推薦一下比較好用的**:西次**,快**。
明文傳輸,埠號80
http協議(hypertext transfer protocol,超文字傳輸協議):是一種發布和接收 html頁面的方法。
加密傳輸,埠號443
https(hypertext transfer protocol over secure socket layer)簡單講是http的安全版,在http下加入ssl層。 https = http+ssl
ssl(secure sockets layer 安全 套接層)
主要用於web的安全傳輸協議,在傳輸層對網路連線進行加密,保障在internet上資料傳輸的安全。
4.ssl報錯解決方法?
注意:如果報錯ssl,那麼解決方案是
Python爬蟲 初識爬蟲
模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料 瀏覽器開啟網頁的過程 當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果 瀏覽器傳送訊息給...
Python爬蟲初識
目標物件為靜態 url管理器 網頁解析器 beautifulsoup 執行流程 避免重複抓取 迴圈抓取 功能 訪問方式 import urllib2 response urllib2.urlopen print response.getcode 獲取狀態碼,200表示獲取成功 cont respon...
python爬蟲初識
1.爬蟲定義 學習python爬蟲首先要知道python爬蟲是什麼 爬蟲就是提取網頁中有效的資料。原理就是向伺服器提交請求,伺服器響應之後並返回資料。返回的資料再篩選提取之後就是我們要的有效資料。整個過程就是爬蟲。2.爬蟲組成 1.傳送請求的python 2.被爬取的網頁。3.網頁結構 爬取網頁之前...