1.什麼是大資料 ?
維基百科對於大資料給出了乙個定性的描述:大資料是指無法使用傳統和常用的軟體技術和工具在一定時間內完成獲取、管理和處理的資料集。
從技術特點來看,大資料滿足5v模型:
大體量(volume)、多樣性(variety)、時效性(velocity)、準確性(veracity)、大價值(value)。
2.大資料的型別以及計算特徵。
2.從資料獲取處理的角度來看:大資料可分為批處理計算方式以及流式計算方式。
3.從資料處理角度看:大資料處理可分為傳統的查詢分析計算以及複雜的資料探勘計算。
4.從大資料的處理相應效能看:大資料處理實時/準實時計算與非實時計算。或者是聯機計算與線下計算。
5.從資料關係角度看:大資料可分為簡單資料(web日誌)和複雜關係資料(社會網路)。
6.從迭代角度看,現實世界中計算大多需要大量的迭代計算。
7.從平行計算體系結構特徵角度看,需要支援大規模資料的儲存和計算。
3.什麼是大資料技術。
或者說,我們研究大資料,主要是為了應對資料量指數增長後出現的哪些問題?
1.資料儲存:tb級別、pb級別的資料該存在**?該如何儲存才能保證安全?單機必然無法儲存如此龐大的資料。一般都是採用分布式儲存的方式。
2.資料運算:單單儲存下來的資料是沒有任何意義的,如何利用這些資料才是我們儲存資料的原因。但是已經無法正常儲存的資料如何才能正常使用呢?目前來說,谷歌提出的mapreduce計算框架是處理大資料的最有力的工具。
4.大資料研究的基本途徑。
1.尋找新演算法降低計算複雜度。
2.尋找或採用降低資料尺度的演算法。
3.分而治之的並行化處理方法。
尋找新演算法顯然是極難的。目前機器學習行業主流的演算法都是過去幾十年甚至上百年提出的演算法。而降低尺度的方法顯得有些滑稽,我們採用大資料就是因為大資料描述問題的準確性,降低資料尺度,將大資料變為「小」資料同樣也降低了資料精度和價值。為此,我們希望有一種新的對大資料的處理方法,而mapreduce則是其中的佼佼者。
5.什麼是mapreduce?
1.mapreduce是乙個基於集群的高效能平行計算平台。它可以利用市場上的普通的商用伺服器構成乙個包含數
十、數百甚至上千結點的分布和平行計算集群。
2.mapreduce是乙個平行計算與軟體執行框架。
3.mapreduce是乙個並行程式設計模型與方法。
reference
[1]《深入理解大資料》黃宜華,苗凱翔. 機械工業出版社
[2] 實戰案例玩轉hadoop系列2 --大資料及hadoop簡介 網頁位址
大資料基礎知識
一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資料庫 軟體工具能力範圍的資料集合,具有海量的資料規模 快速的資料流轉 多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案...
大資料基礎知識(待續)
最近要參與大資料治理專案,但大資料相關知識是零,因此從頭開始了解學習。本人學習目的是用於測試,因此jindui 第二步了解mr,mapreduce,mr對hadoop來說是至關重要的,關於這個概念的理解,可以參考這位知友的回答當然慕課網上也有,可以花五分鐘看一下,基於此,基本對hadoop有基本了解...
大資料相關基礎知識
apache hadoop專案包括以下四個主要模組 1 hadoop common hadoop的通用工具集 2 hadoop distributed file system hdfs 分布式檔案系統 3 hadoop yarn 任務排程 集群資源管理框架 4 hadoop mapreduce 基於...