大資料之簡介

2021-07-03 23:52:58 字數 1511 閱讀 7124

要理解大資料這一概念,首先要從」大」入手,」大」是指資料規模,大資料一般指在10tb(1tb=1024gb)規模以上的資料量。大資料同過去的海量資料有所區別,其基本特徵可以用4個v來總結(vol-ume、variety、value和veloc-ity),即體量大、多樣性、價值密度低、速度快。

大資料技術是指從各種各樣型別的巨量資料中,快速獲得有價值資訊的技術。解決大資料問題的核心是大資料技術。目前所說的」大資料」不僅指資料本身的規模,也包括採集資料的工具、平台和資料分析系統。大資料研發目的是發展大資料技術並將其應用到相關領域,通過解決巨量資料處理問題促進其突破性發展。因此,大資料時代帶來的挑戰不僅體現在如何處理巨量資料從中獲取有價值的資訊,也體現在如何加強大資料技術研發,搶占時代發展的前沿。

周濤博士表示:大資料處理資料時**念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。

大資料處理的流程

具體的大資料處理方法確實有很多,但是根據筆者長時間的實踐,總結了乙個普遍適用的大資料處理流程,並且這個流程應該能夠對大家理順大資料的處理有所幫助。整個處理流程可以概括為四步,分別是採集、匯入和預處理、統計和分析,最後是資料探勘。

大資料處理之一:採集

在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票**和**,它們併發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。

大資料處理之二:匯入/預處理

雖然採集端本身會有很多資料庫,但是如果要對這些海量資料進行有效的分析,還是應該將這些來自前端的資料匯入到乙個集中的大型分布式資料庫,或者分布式儲存集群,並且可以在匯入基礎上做一些簡單的清洗和預處理工作。也有一些使用者會在匯入時使用來自twitter的storm來對資料進行流式計算,來滿足部分業務的實時計算需求。

匯入與預處理過程的特點和挑戰主要是匯入的資料量大,每秒鐘的匯入量經常會達到百兆,甚至千兆級別。

大資料處理之三:統計/分析

統計與分析主要利用分布式資料庫,或者分布式計算集群來對儲存於其內的海量資料進行普通的分析和分類彙總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到emc的greenplum、oracle的exadata,以及基於mysql的列式儲存infobright等,而一些批處理,或者基於半結構化資料的需求可以使用hadoop。

統計與分析這部分的主要特點和挑戰是分析涉及的資料量大,其對系統資源,特別是i/o會有極大的占用。

大資料處理之四:挖掘

與前面統計和分析過程不同的是,資料探勘一般沒有什麼預先設定好的主題,主要是在現有資料上面進行基於各種演算法的計算,從而起到**(predict)的效果,從而實現一些高階別資料分析的需求。比較典型演算法有用於聚類的kmeans、用於統計學習的svm和用於分類的*****bayes,主要使用的工具有hadoop的mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很複雜,並且計算涉及的資料量和計算量都很大,常用資料探勘演算法都以單執行緒為主。

整個大資料處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是乙個比較完整的大資料處理。

大資料之 hadoop 簡介

簡介 hadoop 是乙個由 apache 會所開發的分布式系統基礎架構,它可以使使用者在不了解分布式底層細節的情況下開發分布式程式,充分利用集群的威力進行高速運算和儲存。從其定義就可以發現,它解決了兩大問題 大資料儲存 大資料分析。也就是 hadoop 的兩大核心 hdfs 和 mapreduce...

大資料簡介

計算的速度比較慢 計算的資料量大 需要的技術hadoop hive 離線分析,他的本質就是hadoop sqoop 協作框架 hbase 資料庫,非關係型資料庫,分布式資料庫 flume 寫作框架,收集日誌資料 cm 圖形化管理器,監控集群資源狀態,部署集群。計算的資料量體量沒有離線大。計算的速度快...

大資料 Hive 簡介

第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...