隨著近幾年計算機技術和網際網路的發展,「大資料」這個名詞越來越多進入我們的視野。大資料的快速發展也在無時無刻影響著我們的生活。
那大資料究竟是什麼呢?
首先,看看專家是怎麼解釋大資料的:
大資料就是多,就是多。原來的裝置存不下、算不動。 ——啪菠蘿·畢卡索
大資料,不是隨機樣本,而是所有資料;不是精確性,而是混雜性;不是因果關係,而是相關關係。—— schnberger
顧名思義「大資料」,從字面意思來理解就是「大量的資料」。
從技術的的角度來解釋,大資料就是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
ibm提出大資料具有5v特點:volume(大量)、velocity(高速)、variety(多樣)、value(低價值密度)、veracity(真實性)。
那hadoop又是什麼?它和大資料又有什麼聯絡呢?
hadoop是乙個對海量資料進行處理的分布式系統架構,可以理解為hadoop就是乙個對大量的資料進行分析的工具,和其他元件搭配使用,來完成對大量資料的收集、儲存和計算。
hadoop框架最核心的設計就是:hdfs 和 mapreduce。
hdfs為海量的資料提供了儲存
mapreduce為海量的資料提供了計算
一套完整的hadoop大資料生態系統基本包含這些元件。
hdfs:hadoop分布式檔案系統,專門儲存超大資料檔案,為整個hadoop生態圈提供了基礎的儲存服務。
mapreduce:分布式離線計算框架,用來處理大量的已經儲存在本地的離線資料。
storm:分布式實時計算,主要特點是實時性,用來處理實時產生的資料。
zookeeper:用於hadoop的分布式協調服務。hadoop的許多元件依賴於zookeeper,它執行在計算機集群上面,用於管理hadoop操作。
hbase:是乙個建立在hdfs之上,面向列的nosql資料庫,用於快速讀/寫大量資料。
hive:基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表。
sqoop:是乙個連線工具,用於在關聯式資料庫、資料倉儲和hadoop之間轉移資料。
pig:它是mapreduce程式設計的複雜性的抽象。pig平台包括執行環境和用於分析hadoop資料集的指令碼語言(pig latin)。
**網路
結構分析
大資料開發你需要知道的十個技術
當你不創造東西時,你只會根據自己的感覺而不是能力去看待問題。whytheluckystiff 彙總一些自己在大資料路上走過的彎路,願大家不再掉坑 1.分布式儲存 傳統化集中式儲存存在已有一段時間。但大資料並非真的適合集中式儲存架構。hadoop設計用於將計算更接近資料節點,同時採用了hdfs檔案系統...
hadoop2 x需要知道的預設yarn配置
在hadoop 2.2.0中,yarn框架有很多預設的引數值,如果你是在機器資源比較不足的情況下,需要修改這些預設值,來滿足一些任務需要。nodemanager和resourcemanager都是在yarn site.xml檔案中配置的,而執行mapreduce任務時,是在mapred site.x...
關於資料治理,你需要知道些什麼?
每個有效的資料庫都需要精心設計的模式 schema 以保持資料乾淨,避免衝突,滿足使用者的各種需求,適應未來的擴充套件。同樣,每個有效的企業資料計畫都離不開資料治理,也就是精心設計的政策,以明確職責 解決不同利益相關方之間的衝突,提供維護和擴充套件,保護敏感資訊。資料治理的關注點通常包括 資料管理方...