01 爬蟲的基本概念

2021-10-23 14:49:40 字數 945 閱讀 4518

爬蟲網路爬蟲(又被稱為網頁蜘蛛, 網路機械人)就是模擬客戶端傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式.   原則上,只要是瀏覽器能做的事情,爬蟲都能做.

爬蟲能做什麼

爬蟲的分類:

爬蟲獲取的資料的用途:

進行資料分析或者是機器學習相關的專案

爬蟲的流程:

通用搜尋引擎的侷限性

http :超文字傳輸協議, 預設埠80

https: http+ssl(安全套接字層), 預設埠號:443

https比http更安全,但是效能更低.

頁面上渲染出來的的資料在**

形式 scheme://host[:port#]/path/.../[?query-string][#anchor]

host(主機和埠號)

connection(鏈結型別)

upgarde-insecure-requests(公升級為https請求)

user-agent(瀏覽器名稱)    使用者**       瀏覽器的身份標識

accept(傳輸檔案型別)

referer(頁面跳轉處)

accept-encoding(檔案編譯碼格式)

cookie (cookie)

x-requested-with: xml httprequest(是ajax非同步請求)

爬蟲使用python3的字串型別處理  學習參考python3 字串

要掌握str和bytes型別的資料轉化.

爬蟲基本概念

網路爬蟲又稱為網路蜘蛛,網路機械人,是一種按照一定的規則,自動請求全球資訊網 並提取網路資料的程式或指令碼 通常可以按照不同的維度對網路爬蟲進行分類 按照使用場景,可將爬蟲分為通用爬蟲和聚焦爬蟲 按照爬取形式,可分為累積式爬蟲和增量式爬蟲 按照爬取資料的存在方式,可分為表層爬蟲和深層爬蟲 通用爬蟲 ...

1 爬蟲基本概念

目錄 一 什麼是網路爬蟲?二 爬蟲分類 三 如何編寫爬蟲 四 爬蟲必備技能 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。學會了爬蟲,我們可以做 python爬蟲程式可用於收集資料。這也是最直接和最...

爬蟲的基本概念(一)

1,http和https http 超文字傳輸協議,預設埠號 80 https http ssl 安全套接字層 預設埠號 443 2,http常見請求頭 1.host 主機和埠 2.connect 連線型別 3.upgrade insecure requests 公升級為https請求 4.user...