根據使用場景,爬蟲通常分為兩類:
2.1 概念
2.2 瀏覽器傳送http請求的過程
客戶端將url傳送至dns伺服器。
dns伺服器獲取網域名稱對應的ip,返回至客戶端。
客戶端通過ip位址請求資源。
web伺服器返回頁面: html+js+css+jpg。
2.3 http協議的內容
2.3.1 請求行
請求方法
空格url
空格協議版本
回車符換行符
2.3.2 請求頭
host (主機和埠號)
connection (鏈結型別)
upgrade-insecure-requests (公升級為https請求)
user-agent (瀏覽器名稱)accept (傳輸檔案型別)
referer (頁面跳轉處)accept-encoding(檔案編譯碼格式)
cookie (cookie)x-requested-with :xmlhttprequest (是ajax 非同步請求)
2.3.3 請求體
2.4 請求方法
2.5 狀態碼
爬蟲課程一(爬蟲的概念與HTTP的複習)
目前在學習爬蟲的課程 以下小坐總結 第一天主要看了以寫爬蟲的原理以及爬蟲資料的抓取 一 1.1 為什麼學習爬蟲 最主要的是在目前看來,爬蟲工程師屬於緊缺型人才,並且薪資待遇普遍較高 1,學習爬蟲,可以私人定製乙個搜尋引擎。2,大資料時代,要進行資料分析,首先要有資料來源 3,對於很多seo從業者來說...
網路爬蟲(1) 爬蟲與HTTP
聚焦爬蟲 聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如 獲取豆瓣上電影的名稱和影評,而不是獲取整張頁面中所有的資料值。增量式爬蟲 增量式是用來檢測 資料更新的情況,且可以將 更新的資料進行爬取 後期會有章節單獨對其展開詳細的講解 即 有權規定 中哪些內容可以被爬蟲抓取,哪些內容不可以被爬蟲抓取...
爬蟲概念 HTTP協議 加密方式
1.爬蟲的概念 通過編寫 來自動控制瀏覽器來抓去資料 2.爬蟲協議 robots.txt 協議 該協議裡面註明了哪些資訊允許爬蟲 哪些不允許 違反改協議的爬蟲行為可判定為惡意爬蟲 有承擔法律責任的風險 3.http協議 是伺服器端和客戶端進行資訊傳遞的一種協議 只有雙方遵循該相同的協議才能進行資料傳...