01 爬蟲的基本概念

爬蟲網路爬蟲(又被稱為網頁蜘蛛, 網路機械人)就是模擬客戶端傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式. 原則上,只要是瀏覽器能做的事情,爬蟲都能做.

爬蟲能做什麼

爬蟲的分類:

爬蟲獲取的資料的用途：

進行資料分析或者是機器學習相關的專案

爬蟲的流程：

通用搜尋引擎的侷限性

http :超文字傳輸協議, 預設埠80

https: http+ssl(安全套接字層), 預設埠號:443

https比http更安全,但是效能更低.

頁面上渲染出來的的資料在**

形式 scheme://host[:port#]/path/.../[?query-string][#anchor]

host(主機和埠號)

connection(鏈結型別)

upgarde-insecure-requests(公升級為https請求)

user-agent（瀏覽器名稱）使用者** 瀏覽器的身份標識

accept(傳輸檔案型別)

referer(頁面跳轉處)

accept-encoding(檔案編譯碼格式)

cookie (cookie)

x-requested-with: xml httprequest(是ajax非同步請求)

爬蟲使用python3的字串型別處理學習參考python3 字串

要掌握str和bytes型別的資料轉化.

爬蟲基本概念

網路爬蟲又稱為網路蜘蛛,網路機械人,是一種按照一定的規則,自動請求全球資訊網並提取網路資料的程式或指令碼通常可以按照不同的維度對網路爬蟲進行分類按照使用場景,可將爬蟲分為通用爬蟲和聚焦爬蟲按照爬取形式,可分為累積式爬蟲和增量式爬蟲按照爬取資料的存在方式,可分為表層爬蟲和深層爬蟲通用爬蟲 ...

1 爬蟲基本概念

目錄一什麼是網路爬蟲？二爬蟲分類三如何編寫爬蟲四爬蟲必備技能網路爬蟲又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。學會了爬蟲，我們可以做 python爬蟲程式可用於收集資料。這也是最直接和最...

爬蟲的基本概念（一）

1，http和https http 超文字傳輸協議，預設埠號 80 https http ssl 安全套接字層預設埠號 443 2，http常見請求頭 1.host 主機和埠 2.connect 連線型別 3.upgrade insecure requests 公升級為https請求 4.user...

01 爬蟲的基本概念

爬蟲基本概念

1 爬蟲基本概念

爬蟲的基本概念（一）

相關推薦