資料倉儲 大資料定義

2021-08-14 06:06:55 字數 540 閱讀 4531

2023年gartner公司將大資料定義為3v,即:大容量(volume)、高流速(velocity)、多樣化(variety),後來人們在3v基礎上增加新的v-"veracity",即真實性。現在人們普遍認可的大資料是具有4v,即:volume、velocity、variety、veracity,也就是大、快、多、真。

1. volume(生成和儲存的資料量大)

2. velocity(資料產生或處理速度快)

指的是銷售、交易、計量等人們關心的事件發生的頻率。例如,2023年雙十一當天,支付寶的峰值交易數為每秒8.59萬筆。

3. variety(資料來源和資料種類多樣)

4. veracity(資料的真實性和高質量)

諸如軟硬體異常、應用系統bug、人為錯誤等都會使資料不正確。大資料處理中應該分析並過濾掉這些偏差的、偽造的、異常的部分,防止髒資料損害到資料分析結果的準確性。

------《hadoop構建資料倉儲實踐》

大資料資料倉儲 場景

2015 10 24 朱潔hadoop技術學習 傳統oltp olap之分 資料倉儲裡面有oltp olap之分,oltp是傳統關係型資料庫的主要應用,其主要面向基本的 日常的事務處理,例如銀行交易。olap是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。大資...

大資料資料倉儲Hive概述

1.hive產生背景 1 mapreduce的不便性 2 hdfs上的檔案缺少schema 2.hive是什麼?1 由facebook開源的,最初用於解決海量結構化的日誌資料統計問題 2 構建在hadoop之上的資料倉儲 3 hive定義了一種類sql查詢語言 hql 4 通常用於進行離線資料處理 ...

大資料之資料倉儲分層

資料分層是一套行之有效的資料組織和管理方法,使得資料體系更有序。1 清晰資料結構 每乙個資料分層都有它的作用域和職責,在使用表的時候能更方便的定位和理解。2 減少重複開發 規範資料分層,開發一些通用的中間層資料,能夠減少極大的重複計算。3 統一資料口徑 通過資料分層,提供統一的資料出口,統一對外輸出...