2015-10-24
朱潔hadoop技術學習
傳統oltp/olap之分
資料倉儲裡面有oltp/olap之分,oltp是傳統關係型資料庫的主要應用,其主要面向基本的、日常的事務處理,例如銀行交易。olap是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。
大資料場景下的同與不同
1、大資料時代,大資料倉儲面對的最基本,最典型的場景還是傳統的olap場景,最明顯的區別是資料規模的急劇膨脹,從傳統的單錶千萬級,到現在單錶百億,萬億。維度也從傳統的幾十維到現在的一些網際網路企業可能存在的萬維。因為系統的互動物件是人,雖然資料量的急劇變大,系統的響應延遲要求仍能是秒級。下圖是阿里ads對當前業界一些常見的分析倉庫從支援的規模和響應時間上的分類,有一定的參考意義。
2、大資料時代,資料價值越來越大,分析手段和分析工具的越來越多。傳統sql包打天下的局面可能就不行了,sql,python,r,bi工具/視覺化工具都有需求。所以除了效能之外,大資料倉儲必然在介面上需要做更多。
3、雲化帶來的挑戰。it基礎設施雲化的趨勢不可逆轉。雲上的易用,安全,可服務性都是很大的挑戰。
影音先鋒電影
資料倉儲 大資料定義
2012年gartner公司將大資料定義為3v,即 大容量 volume 高流速 velocity 多樣化 variety 後來人們在3v基礎上增加新的v veracity 即真實性。現在人們普遍認可的大資料是具有4v,即 volume velocity variety veracity,也就是大 ...
大資料資料倉儲Hive概述
1.hive產生背景 1 mapreduce的不便性 2 hdfs上的檔案缺少schema 2.hive是什麼?1 由facebook開源的,最初用於解決海量結構化的日誌資料統計問題 2 構建在hadoop之上的資料倉儲 3 hive定義了一種類sql查詢語言 hql 4 通常用於進行離線資料處理 ...
大資料之資料倉儲分層
資料分層是一套行之有效的資料組織和管理方法,使得資料體系更有序。1 清晰資料結構 每乙個資料分層都有它的作用域和職責,在使用表的時候能更方便的定位和理解。2 減少重複開發 規範資料分層,開發一些通用的中間層資料,能夠減少極大的重複計算。3 統一資料口徑 通過資料分層,提供統一的資料出口,統一對外輸出...