數薈集分布式採集平台分析

2021-12-30 08:59:13 字數 893 閱讀 7848

一、概述

本產品是分布式、速度快、穩定、適用採集範圍廣、企業級產品,適合大資料量採集(日採集量在幾千萬、上億的資料量級別),對時效性要求高的企業,比如輿情公司和大資料分析公司,資料實時監控公司等。

二、具體描述

1、分布式

由一台排程伺服器和多個採集節點組成分布式架構,排程伺服器可以同時管理多個節點節點,比如對100臺採集節點同時進行重啟、同時進行規則發布等操作,可以在統一的介面上檢視每個節點的運**況,提供採集節點預警機制。多個採集節點協同工作,有效避免不同採集節點重複採集資料。

2、速度快

我們的產品不同於市面上其他爬蟲軟體,本產品純後台程序執行,不需要渲染圖形介面而是直接解析報文格式,速度大概是其他產品的30~100倍。

3、穩定

可以24小時不間斷執行,執行穩定,已有客戶使用我們的產品執行近1年時間依然執行良好。

4、採集範圍廣

本產品可以採集任意格式和形式的資料,比如可以採集百度地圖資料、高德地圖資料、可以採集手機app資料、可以採集指定**的全量資料。這些能力是市面上其他採集軟體不能做到的。

5、採集資料格式廣

可以採集html、xml、json、檔案、**檔案、word檔案、pdf檔案、excel檔案等所有格式都能夠採集。

6、有效突破防採集機制

內建多種突破防採集方法和解決方案,有效增加採集範圍

總之我們的客戶定位在採集資料量大、時效性高的大資料企業,是真正意義上的企業級產品,不同於市面採集軟體(只能做小規模資料量的採集,而且採集範圍有限)。我們的產品可以節省企業一半以上的爬蟲工程師的人力資源。資料採集看起來簡單,但是要實現大資料量採集和全量資料的穩定採集是乙個非常有難度的事情,現在爬蟲工程師緊缺,而且大多經驗不足,即使招到爬蟲工程師也未必能解決所有爬蟲問題,從目前來看我們的產品市場需求很大,隨著大資料的興起會越來越大。

分布式分析管理平台Kylin安裝

在cdh 5.3元件中安裝kylin 1.5.3 注意 安裝kylin前要檢視其對應的版本與hadoop版本是否匹配相容 1.將本地壓縮包上傳至 opt 2.解壓 tar xzvf apache kylin 1.3.0 bin.tar.gz 3.更改名字 mv apache kylin 1.3.0 ...

分布式資訊採集程式preview

依舊先來段廢話呵呵,程式還在開發階段,擔心開發出來的程式會走樣,所以拿出來溜溜。市面上已經有n多的採集軟體了,我只是在重複輪子,比它們的好不到哪去,差到沒邊到是極有可能。不過相比目前的一些採集程式而言,我算是基於元件的吧,各個元件間可替換,希望能算得上是乙個亮點。同時也希望這次的展示,同行專家們給予...

分布式計算平台 Dryad

微軟正在研究開發的允許程式設計人員利用計算機集群 cluster 或者資料中心執行資料並行處理程式的乙個體系架構dryad,dryad是微軟對應於google的mapreduce技術。其體系結構圖如下 計算機集群的各個計算機之上是cluster service,用於提供集群內的計算機的最基本的管理。...