對於大資料採集系統,主要分為哪三類系統?

2021-09-16 18:27:39 字數 2099 閱讀 3913

一、系統日誌採集系統。

許多公司的業務平台每天都會產生大量的日誌資料。對於這些日誌資訊,我們可以得到出很多有價值的資料。通過對這些日誌資訊進行日誌採集、收集,然後進行資料分析,挖掘公司業務平台日誌資料中的潛在價值。

為公司決策和公司後台伺服器平台效能評估提高可靠的資料保證。

目前常用的開源日誌收集系統有flume、scribe等。apache flume是乙個分布式、可靠、可用的服務,用於高效地收集、聚合和移動 大量的日誌資料,它具有基於流式資料流的簡單靈活的架構。

其可靠性機制和許多故障轉移和恢復機制,使flume具有強大的容錯能力。

scribe是facebook開源的日誌採集系統。scribe實際上是乙個分布式共享佇列,它可以從各種資料來源上收集日誌資料,然後放入它上面的共享佇列中。

scribe可以接受thrift client傳送過來的資料,將其放入它上面的訊息佇列中。然後通過訊息佇列將資料push到分布式儲存系統中,並且由分布式儲存系統提供可靠的容錯性能。

如果最後的分布式儲存系統crash時,scribe中的訊息佇列還可以提供容錯能力,它會還日誌資料寫到本地磁碟中。scribe支援持久化的訊息佇列,來提供日誌收集系統的容錯能力。

二、網路資料採集系統。

並將其提取、清洗、轉換成結構化的資料,將其儲存為統一的本地檔案資料。目前常用的網頁爬蟲系統有apache nutch、crawler4j、scrapy等框架。

apache nutch是乙個高度可擴充套件和可伸縮性的分布式爬蟲框架。

apache通過分布式抓取網頁資料,並且由hadoop支援,通過提交mapreduce任務來抓取網頁資料,並可以將網頁資料儲存在hdfs分布式檔案系統中。

nutch可以進行分布式多工進行爬取資料,儲存和索引。由於多個機器並行做爬取任務,nutch利用多個機器充分利用機器的計算資源和儲存能力,大大提高系統爬取資料能力。

crawler4j、scrapy都是乙個爬蟲框架,提供給開發人員便利的爬蟲api介面。開發人員只需要關心爬蟲api介面的實現,不需要關心具體框架怎麼爬取資料。crawler4j、scrapy框架大大降低了開發人員開發速率,開發人員可以很快的完成乙個爬蟲系統的開發。

三、資料庫採集系統。

一些企業會使用傳統的關係型資料庫mysql和oracle等來儲存資料。

除此之外,redis和mongodb這樣的nosql資料庫也常用於資料的採集。企業每時每刻產生的業務資料,以資料庫一行記錄形式被直接寫入到資料庫中。

通過資料庫採集系統直接與企業業務後台伺服器結合,將企業業務後台每時每刻都在產生大量的業務記錄寫入到資料庫中,最後由特定的處理分許系統進行系統分析。

針對大資料採集技術,目前主要流行以下大資料採集分析技術。hive是facebook團隊開發的乙個可以支援pb級別的可伸縮性的資料倉儲。

這是乙個建立在hadoop之上的開源資料倉儲解決方案。 hive支援使用類似sql的宣告性語言(hiveql)表示的查詢,這些語言被編譯為使用hadoop執行的mapreduce作業。

另外,hiveql使使用者可以將自定義的map-reduce指令碼插入到查詢中。該語言支援基本資料型別,類似陣列和map的集合以及巢狀組合。

hiveql語句被提交執行。首先driver將查詢傳遞給編譯器compiler,通過典型的解析,型別檢查和語義分析階段,使用儲存在metastore中的元資料。

編譯器生成乙個邏輯任務,然後通過乙個簡單的基於規則的優化器進行優化。

最後生成一組mapreduce任務和hdfs task的dag優化後的task。 然後執行引擎使用hadoop按照它們的依賴性順序執行這些task。

hive簡化了對於那些不熟悉hadoop mapreduce介面的使用者學習門檻,hive提供了一些列簡單的hiveql語句,對資料倉儲中的資料進行簡要分析與計算。

人工智慧、大資料、雲計算和物聯網的未來發展值得重視,均為前沿產業,多智時代專注於人工智慧和大資料的入門和科譜,在此為你推薦幾篇優質好文:

zigbee與gprs的遠端資料採集系統設計

大資料時代採集就是價值

大資料技術是如何採集到我們的資訊的呢?

多智時代-人工智慧和大資料學習入門**|人工智慧、大資料、物聯網、雲計算的學習交流**

大資料學習根據應用目標,主要可以劃分為哪三個階段?

1 大資料基礎設施建設階段 這個階段的重點是把大資料存起來,管起來,能用起來,同時要考慮大資料平台和原有業務系統的互通聯合問題。一句話,做好全域性資料整合解決資料孤島問題!要完成大資料基礎設施系統建設開發,需要明確資料採集 儲存和分析各層核心元件的選型和使用,搭建穩定的大資料集群,或選擇私有雲方案的...

大資料技術平台主要分為哪幾類

大資料的處理過程可以分為大資料採集 儲存 結構化處理 隱私保護 挖掘 結果展示 發布 等,各種領域的大資料應用一般都會涉及到這些基本過程,但不同應用可能會有所側重。對於網際網路大資料而言,由於其具有獨特完整的大資料特點,除了共性技術外,採集技術 結構化處理技術 隱私保護也非常突出。有很多演算法和模型...

雲計算建設,主要劃分為哪三個階段?

雲計算建設分為三個階段 基礎雲階段 平台雲階段 服務雲階段。企業首先需要將現有的資訊架構變成雲架構,即實現虛擬化的資料中心 然後,在這個基礎的雲架構上部署基礎軟體,也就是中介軟體,實現it資源平台化 第三步是在中介軟體平台雲的基礎上,實施部署面向業務的應用軟體,能夠為企業業務提供it服務。1 基礎雲...