爬蟲初階（一）爬蟲概念與HTTP

根據使用場景，爬蟲通常分為兩類：

2.1 概念

2.2 瀏覽器傳送http請求的過程

客戶端將url傳送至dns伺服器。

dns伺服器獲取網域名稱對應的ip，返回至客戶端。

客戶端通過ip位址請求資源。

web伺服器返回頁面: html+js+css+jpg。

2.3 http協議的內容

2.3.1 請求行

請求方法

空格url

空格協議版本

回車符換行符

2.3.2 請求頭

host (主機和埠號)

connection (鏈結型別)

upgrade-insecure-requests (公升級為https請求)

user-agent (瀏覽器名稱)accept (傳輸檔案型別)

referer (頁面跳轉處)accept-encoding（檔案編譯碼格式）

cookie （cookie）x-requested-with :xmlhttprequest (是ajax 非同步請求)

2.3.3 請求體

2.4 請求方法

2.5 狀態碼

目前在學習爬蟲的課程以下小坐總結第一天主要看了以寫爬蟲的原理以及爬蟲資料的抓取一 1.1 為什麼學習爬蟲最主要的是在目前看來，爬蟲工程師屬於緊缺型人才，並且薪資待遇普遍較高 1，學習爬蟲，可以私人定製乙個搜尋引擎。2，大資料時代，要進行資料分析，首先要有資料來源 3，對於很多seo從業者來說...

聚焦爬蟲聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如獲取豆瓣上電影的名稱和影評，而不是獲取整張頁面中所有的資料值。增量式爬蟲增量式是用來檢測資料更新的情況，且可以將更新的資料進行爬取後期會有章節單獨對其展開詳細的講解即有權規定中哪些內容可以被爬蟲抓取，哪些內容不可以被爬蟲抓取...

1.爬蟲的概念通過編寫來自動控制瀏覽器來抓去資料 2.爬蟲協議 robots.txt 協議該協議裡面註明了哪些資訊允許爬蟲哪些不允許違反改協議的爬蟲行為可判定為惡意爬蟲有承擔法律責任的風險 3.http協議是伺服器端和客戶端進行資訊傳遞的一種協議只有雙方遵循該相同的協議才能進行資料傳...

爬蟲初階（一） 爬蟲概念與HTTP