大資料主要解決兩個問題: 海量資料的儲存問題,海量資料的計算問題;
volume
variety
value
velocity
veracity
大 資料量大 資料體量賊大
多 資料種類多 結構化,非結構化的資料
值 需要在海量資料中撈取有價值的資料;
快 離線處理 實時處理
信 資料準確 資料質量高
電商方面: 使用者行為分析;
傳媒方向: 內容推薦;
金融領域: 個人信用評估
交通領域: 車流控制
電信領域: **推薦
安防方面: 人臉識別
醫療體系: 智慧型醫療
明確分析目的和思路
資料收集
資料處理(etl)
資料分析
資料視覺化
報表呈現
平台組 -> 大資料平台環境搭建,集群效能監控,集群效能調優
資料倉儲組 ->etl工程師 hive工程師-數倉建模和資料分析
資料探勘組 -> 演算法工程師 推薦系統工程師 使用者畫像工程師
報表開發組 -> 報表開發
現代計算機大多基於馮諾依曼結構;包括程式和資料;
計算機包括儲存器,運算器,控制器,輸入輸出裝置;
硬體和軟體
軟體: 作業系統 -> 系統軟體 -> 應用軟體
作業系統: 管理處理器, 管理儲存器, 管理io裝置, 管理檔案。
程式之間輪換著進入cpu計算,core
常見的作業系統:
windows
,linix
,unix
,mac
,android
001 大資料概念
大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。主要解決海量資料資料的儲存和海量資料的分析計算問題 按順序給出資料儲存單位 bit byte kb mb g...
大資料概念
在網際網路技術發展到現今階段,大量日常 工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了 式的增長,以前的傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的軟體工具應運而生,這就是大資料!換個角度說,大資料是 1 有海量的資料 2 有對海量資料進行挖掘的需求 3 有對...
大資料概念
1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。hdfs hadoop distributed file system 基於google發布的gfs 設計開發,執行在通用硬體上的分布式檔案系統。除具備其它分布式檔案系統相同特性外,還有自己的特性 高容錯...