1 爬蟲基本概念

2021-10-19 15:55:35 字數 775 閱讀 3429

目錄

一、什麼是網路爬蟲?

二、爬蟲分類

三、如何編寫爬蟲

四、爬蟲必備技能

網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。學會了爬蟲,我們可以做:

python爬蟲程式可用於收集資料。這也是最直接和最常用的方法。由於爬蟲程式是乙個程式,程式執行得非常快,不會因為重複的事情而感到疲倦,因此使用爬蟲程式獲取大量資料變得非常簡單和快速。

刷流量是python爬蟲的自帶的功能。當乙個爬蟲訪問乙個**時,如果爬蟲隱藏得很好,**無法識別訪問來自爬蟲,那麼它將被視為正常訪問。結果,爬蟲「不小心」刷了**的流量

網路爬蟲按照系統結構和實現技術,大致可以分為以下幾種型別:通用爬蟲(general purpose web crawler)、聚焦爬蟲(focused web crawler)、增量式爬蟲(incremental web crawler)。

聚焦網路爬蟲(focused crawler),又稱主題網路爬蟲(topical crawler),是指選擇性地爬行那些與預先定義好的主題相關頁面的網路爬蟲。這是使我們爬蟲的重點

使用到的python庫:urllib.reqeust urllib.parse requests

正規表示式、xpath、bs4、jsonpath

selenium

高效能非同步網路框架

scrapy-redis元件,在scrapy的基礎上增了一套元件,結合redis進行儲存等功能

爬蟲基本概念

網路爬蟲又稱為網路蜘蛛,網路機械人,是一種按照一定的規則,自動請求全球資訊網 並提取網路資料的程式或指令碼 通常可以按照不同的維度對網路爬蟲進行分類 按照使用場景,可將爬蟲分為通用爬蟲和聚焦爬蟲 按照爬取形式,可分為累積式爬蟲和增量式爬蟲 按照爬取資料的存在方式,可分為表層爬蟲和深層爬蟲 通用爬蟲 ...

基本概念 1

首先要知道ecmascript 中的一切都區分大小寫。識別符號就是變數 函式 屬性的名字,或者函式的引數。ecmascript使用的是c風格的注釋,包括單行注釋和塊級注釋。ecmascript 5 引用了嚴格模式的概念。要在整個指令碼中啟用嚴格模式,可以在頂部新增如下 use strict 在函式內...

爬蟲的基本概念(一)

1,http和https http 超文字傳輸協議,預設埠號 80 https http ssl 安全套接字層 預設埠號 443 2,http常見請求頭 1.host 主機和埠 2.connect 連線型別 3.upgrade insecure requests 公升級為https請求 4.user...