爬蟲初階(一) 爬蟲概念與HTTP

2021-09-27 12:40:47 字數 706 閱讀 2521

根據使用場景,爬蟲通常分為兩類:

2.1 概念

2.2 瀏覽器傳送http請求的過程

客戶端將url傳送至dns伺服器。

dns伺服器獲取網域名稱對應的ip,返回至客戶端。

客戶端通過ip位址請求資源。

web伺服器返回頁面: html+js+css+jpg。

2.3 http協議的內容

2.3.1 請求行

請求方法

空格url

空格協議版本

回車符換行符

2.3.2 請求頭

host (主機和埠號)

connection (鏈結型別)

upgrade-insecure-requests (公升級為https請求)

user-agent (瀏覽器名稱)accept (傳輸檔案型別)

referer (頁面跳轉處)accept-encoding(檔案編譯碼格式)

cookie (cookie)x-requested-with :xmlhttprequest (是ajax 非同步請求)

2.3.3 請求體

2.4 請求方法

2.5 狀態碼

爬蟲課程一(爬蟲的概念與HTTP的複習)

目前在學習爬蟲的課程 以下小坐總結 第一天主要看了以寫爬蟲的原理以及爬蟲資料的抓取 一 1.1 為什麼學習爬蟲 最主要的是在目前看來,爬蟲工程師屬於緊缺型人才,並且薪資待遇普遍較高 1,學習爬蟲,可以私人定製乙個搜尋引擎。2,大資料時代,要進行資料分析,首先要有資料來源 3,對於很多seo從業者來說...

網路爬蟲(1) 爬蟲與HTTP

聚焦爬蟲 聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如 獲取豆瓣上電影的名稱和影評,而不是獲取整張頁面中所有的資料值。增量式爬蟲 增量式是用來檢測 資料更新的情況,且可以將 更新的資料進行爬取 後期會有章節單獨對其展開詳細的講解 即 有權規定 中哪些內容可以被爬蟲抓取,哪些內容不可以被爬蟲抓取...

爬蟲概念 HTTP協議 加密方式

1.爬蟲的概念 通過編寫 來自動控制瀏覽器來抓去資料 2.爬蟲協議 robots.txt 協議 該協議裡面註明了哪些資訊允許爬蟲 哪些不允許 違反改協議的爬蟲行為可判定為惡意爬蟲 有承擔法律責任的風險 3.http協議 是伺服器端和客戶端進行資訊傳遞的一種協議 只有雙方遵循該相同的協議才能進行資料傳...