2020 11 15 大資料概念

2021-10-25 09:36:01 字數 876 閱讀 3743

大資料主要解決兩個問題: 海量資料的儲存問題,海量資料的計算問題;

volume

variety

value

velocity

veracity

大 資料量大 資料體量賊大

多 資料種類多 結構化,非結構化的資料

值 需要在海量資料中撈取有價值的資料;

快 離線處理 實時處理

信 資料準確 資料質量高

電商方面: 使用者行為分析;

傳媒方向: 內容推薦;

金融領域: 個人信用評估

交通領域: 車流控制

電信領域: **推薦

安防方面: 人臉識別

醫療體系: 智慧型醫療

明確分析目的和思路

資料收集

資料處理(etl)

資料分析

資料視覺化

報表呈現

平台組 -> 大資料平台環境搭建,集群效能監控,集群效能調優

資料倉儲組 ->etl工程師 hive工程師-數倉建模和資料分析

資料探勘組 -> 演算法工程師 推薦系統工程師 使用者畫像工程師

報表開發組 -> 報表開發

現代計算機大多基於馮諾依曼結構;包括程式和資料;

計算機包括儲存器,運算器,控制器,輸入輸出裝置;

硬體和軟體

軟體: 作業系統 -> 系統軟體 -> 應用軟體

作業系統: 管理處理器, 管理儲存器, 管理io裝置, 管理檔案。

程式之間輪換著進入cpu計算,core

常見的作業系統:

windows,linix,unix,mac,android

001 大資料概念

大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。主要解決海量資料資料的儲存和海量資料的分析計算問題 按順序給出資料儲存單位 bit byte kb mb g...

大資料概念

在網際網路技術發展到現今階段,大量日常 工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了 式的增長,以前的傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的軟體工具應運而生,這就是大資料!換個角度說,大資料是 1 有海量的資料 2 有對海量資料進行挖掘的需求 3 有對...

大資料概念

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。hdfs hadoop distributed file system 基於google發布的gfs 設計開發,執行在通用硬體上的分布式檔案系統。除具備其它分布式檔案系統相同特性外,還有自己的特性 高容錯...