初識Python爬蟲

由於本人最近正在學習爬蟲的相關知識，對於爬蟲的很多了解的都不是透徹，有什麼錯誤的地方，還請不吝指出。話不多說，進入正題。第一天，主要就是介紹什麼是爬蟲。

網路爬蟲又稱網路蜘蛛、網路螞蟻、網路機械人蠕蟲等，可以自動化瀏覽網路中的資訊，當然瀏覽資訊的時候需要按照我們制定的規則進行，這些規則我們稱之為網路爬蟲演算法。使用python可以很方便地編寫出爬蟲程式，進行網際網路資訊的自動化檢索。

爬取網頁：爬取整個網頁包含了網頁中所有得內容。

解析資料：將網頁中你得到的資料進行解析。

難點：爬蟲和反爬蟲之間的博弈。

user-agent：

ser agent中文名為使用者**，簡稱 ua，它是乙個特殊字串頭，使得伺服器能夠識別客戶使用的作業系統及版本、cpu 型別、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器外掛程式等。

什麼是高匿名、匿名和透明**？它們有什麼區別？

1.使用透明**ip，對方伺服器可以知道你使用了**，並且也知道你的真實ip。

2.使用匿名**ip，對方伺服器可以知道你使用了**，但不知道你的真實ip。

3.使用高匿名**ip，對方伺服器不知道你使用了**，更不知道你的真實ip。

這裡推薦一下比較好用的**：西次**，快**。

明文傳輸，埠號80

http協議（hypertext transfer protocol，超文字傳輸協議）：是一種發布和接收 html頁面的方法。

加密傳輸，埠號443

https（hypertext transfer protocol over secure socket layer）簡單講是http的安全版，在http下加入ssl層。 https = http+ssl

ssl（secure sockets layer 安全套接層）

主要用於web的安全傳輸協議，在傳輸層對網路連線進行加密，保障在internet上資料傳輸的安全。

4.ssl報錯解決方法？

注意：如果報錯ssl,那麼解決方案是

Python爬蟲初識爬蟲

模擬瀏覽器開啟網頁，獲取網頁中我們想要的那部分資料瀏覽器開啟網頁的過程當你在瀏覽器中輸入位址後，經過dns伺服器找到伺服器主機，向伺服器傳送乙個請求，伺服器經過解析後傳送給使用者瀏覽器結果，包括html,js,css等檔案內容，瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果瀏覽器傳送訊息給...

Python爬蟲初識

目標物件為靜態 url管理器網頁解析器 beautifulsoup 執行流程避免重複抓取迴圈抓取功能訪問方式 import urllib2 response urllib2.urlopen print response.getcode 獲取狀態碼,200表示獲取成功 cont respon...

python爬蟲初識

1.爬蟲定義學習python爬蟲首先要知道python爬蟲是什麼爬蟲就是提取網頁中有效的資料。原理就是向伺服器提交請求，伺服器響應之後並返回資料。返回的資料再篩選提取之後就是我們要的有效資料。整個過程就是爬蟲。2.爬蟲組成 1.傳送請求的python 2.被爬取的網頁。3.網頁結構爬取網頁之前...

初識Python爬蟲

Python爬蟲 初識爬蟲

Python爬蟲初識

python爬蟲初識

相關推薦

Python爬蟲初識爬蟲