大資料的資料儲存與分析

2021-06-22 03:12:36 字數 783 閱讀 4371

大資料的資料儲存與分析---摘自《hadoop權威指南第2版中文版》

思想一:

資料儲存與分析:

我們已經有了大量的資料,這是個好訊息。不幸的是,我們當下正糾結於儲存和分析這些資料。我們遇到的問題很簡單:讀取乙個磁碟中所有的資料需要很長時間,寫甚至更慢。

乙個很簡單的減少讀取時間的辦法是同時從多個磁碟上讀取資料。

試想,如果我們擁有

100個磁碟,每個磁碟儲存

1%的資料,並行讀取,那麼讀取速度就可以提高

100倍。僅使用磁碟容量的

1%似乎很浪費,但我們可以乙個磁碟儲存

100個資料集,並實現共享磁碟的訪問。並且,從統計角度來看,使用者的分析工作會在不同的時間點進行,所以互相之間的干擾不會太大。

儘管如此,但要實現對多個磁碟資料的並行讀寫,還有更多的問題要解決。

第乙個問題就是硬體故障。一旦使用多個硬體,其中任一硬體發生故障的概率將非常高。避免資料丟失的常用做法是使用備份。

第二個問題是,大多數分析任務,需要以某種方式結合大部分資料,共同完成分析任務,即從乙個磁碟讀取的資料可能需要和從另外99個磁碟中讀取的資料結合使用。各種分布式系統允許結合多個**的資料並實現分析,但保證其正確性是乙個非常大的挑戰。mapreduce提出了乙個程式設計模型,該模型將上述磁碟讀寫的問題進行抽象,並轉換為對乙個資料集(由鍵/值對組成)的計算,該計算由map和reduce兩部分組成。

簡而言之,hadoop提供了乙個可靠的共享儲存和分析系統。hdfs實現儲存,而mapreduce實現分析處理。這兩部分是hadoop的核心。

大資料簡介與大資料分析

大資料 是乙個體量特別大,資料類別特別大的資料集,並且這樣的資料集無法用傳統資料庫工具對其內容進行抓取 管理和處理。大資料 首先是指資料體量 volumes 大,指代大型資料集,一般在10tb?規模左右,但在實際應用中,很多企業使用者把多個資料集放在一起,已經形成了pb級的資料量 其次是指資料類別 ...

儲存之於大資料分析

儲存之於大資料分析 目前市場上有兩種型別的大資料分析方式 同步的和非同步的,兩種都有各自在儲存容量和特性上的要求。近來大資料分析 這個詞正逐漸成為it界流行的乙個術語,以代指有關大資料本身的猜想,通俗說來即成堆資料背後問題的答案。然而,如果我們能夠從足夠的資料點入手比對及交叉分析,或許能幫助我們找到...

大資料系列之大資料分析如何權衡儲存

文章講的是大資料系列之大資料分析如何權衡儲存,系列1 未來24個月市場趨勢和it投入重點 系列2 大資料分析對it資源的需求 在之前的系列1和2中,我們已就大資料分析的發展趨勢以及對it資源的需求進行了解析。接下來,針對大資料分析的重要一環 儲存,中橋將結合市場熱門的儲存技術如快閃儲存器 固態盤等,...