在網際網路技術發展到現今階段,大量日常、工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了**式的增長,以前的傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的軟體工具應運而生,這就是大資料!
換個角度說,大資料是:
1、有海量的資料
2、有對海量資料進行挖掘的需求
3、有對海量資料進行挖掘的軟體工具(hadoop、spark、storm、flink、tez、impala......)
精準廣告推送系統:基於海量的網際網路使用者的各類資料,統計分析,進行使用者畫像(得到使用者的各種屬性標籤),然後可以為廣告主進行有針對性的精準的廣告投放
hadoop中有3個核心元件:
分布式檔案系統:hdfs —— 實現將檔案分布式儲存在很多的伺服器上
分布式運算程式設計框架:mapreduce —— 實現在很多機器上分布式並行運算
分布式資源排程平台:yarn —— 幫使用者排程大量的mapreduce程式,並合理分配運算資源
大資料概念
1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。hdfs hadoop distributed file system 基於google發布的gfs 設計開發,執行在通用硬體上的分布式檔案系統。除具備其它分布式檔案系統相同特性外,還有自己的特性 高容錯...
大資料 基礎概念
hadoop 分布式系統基礎架構 入門學習資料 spark 基於記憶體的計算框架 spark streaming sparksql spark的重要組成部分 hbase 可伸縮,面向列的分布式雲儲存系統 hive 建立在hadoop上的資料倉儲基礎架構。hive定義了簡單的類sql查詢語言,允許使用...
大資料應用開發 大資料的概念
維基百科定義 大資料是指利用常用軟體工具捕獲,管理和處理資料所耗時間超過可容忍時間的資料集。flume可以進行流式日誌資料的收集 sqoop可以互動關係型資料庫,進行匯入匯出資料 使用爬蟲技術,可以在網上爬取海量網頁資料 1.1 概念 離線批處理,是指對海量歷史資料進處理和分析,生成結果資料,供下一...