機器學習導論 大資料的4v特徵

2021-10-04 02:00:43 字數 444 閱讀 7280

一、資料量大

(一)tb-pb-zb

(二)hdfs分布式檔案系統

二、資料種類多

(一)結構化資料

mysql為主的儲存和處理

(二)非結構化資料

1、影象、音訊等

2、用hdfs、mr、hive等來分析

(三)半結構化資料

1、xml、html形式

2、用hdfs、mr、hive、spark等來分析

三、速度快

(一)資料的增長速度快

1、tb-pb-zb

2、hdfs

(二)資料的處理速度快

1、mr-hivepig-impala

2、spark-flink

四、價值密度低

(一)價值密度=有價值的資料/all

(二)價值高

(三)機器學習演算法解決的問題

大資料有4V的特徵,是什麼意思?

大資料的4v,就是 容量大volume 多樣性variety 價值高value 速度快velocity 以海洋為例 a.海洋中水的量非常大 b.海水是多樣的,太平洋的海水和大西洋的海水是有區別的,不同地方海水裡面蘊含的物質 生活的物種都有不同 c.海洋為全人類帶來的好處太多了,人們利用海洋,開發海洋...

華為「4V」金字塔打通大資料價值通道

idc 全球的資料總量將在2020年達到40zb。40zb的資料量到底是多少呢?idc給出了乙個比喻 40zb資料量相當於全球所有沙灘的沙粒總數的57倍。但在如此浩如煙海的資料中,只有不到1 的資料得到了有效分析。資料就像是一座沉睡的寶藏,它需要我們利用大資料這一新架構 新工具,點石成金,變廢為寶。...

機器學習4 資料和特徵

mysql mongodb 大部分時候存在csv中。numpy釋放了gil 全域性直譯器鎖 真正的多執行緒。計算能力強就是因為numpy的這個多執行緒工程。詳解 文字特徵抽取 from sklearn.feature extraction import dictvectorizer from skl...