《大資料技術與原理》課程筆記
目錄
1.1大資料概念
1.2資料產生方式
1.3技術支撐
1.4大資料的影響
1.5大資料的關鍵技術
1.6大資料的計算模式
(1)資料量大/「大量化」
(2)資料型別繁多/「多樣化」
10%結構化資料,90%非結構化資料
(3)處理速度快/「快速化」
1秒定律——秒級決策
(4)價值密度低,商業價值高/「價值化」
運營式系統階段——>使用者原創內容階段——>感知式系統階段
感知式系統階段也就是物聯網的大規模普及,物聯網的迅速發展讓大資料最終到來。
(1)儲存裝置容量不斷增大
(2)cpu處理能力大幅提公升
(3)網路頻寬不斷增加
(1)科學研究正規化的改變
實驗——>理論——>計算——>資料
資料研究正規化和其他正規化的區別:一開始並不清楚問題所在,通過大資料分析發現問題(問題發現);而不像以前,知道是什麼問題,我們去找答案(答案查詢)。
(2)思維方式的改變
(1)大資料技術的不同層面及其功能
(2)大資料核心技術
大資料計算模式
解決問題
代表產品
批處理計算
針對大規模資料的批處理
mapreduce、spark
流計算針對流資料的實時計算
storm、s4
圖計算針對大規模圖結構資料的處理
pregel、graphx
查詢分析計算
大規模資料的儲存管理和查詢分析
dremel、hive
大資料技術原理與應用 筆記
大資料 思路的轉變 全樣而非抽樣 效率而非精確 相關而非因果 分布式儲存 和 分布式處理 解決了 分布式儲存 分布式處理 虛擬化和多租戶 yarn 簡稱 樣 作用是起到 排程作用 因為在版本1時 mapreduce 即處理 又負責排程 版本2進行拆分 集群資源管理 解決海量資料分布式儲存問題 幾個重...
大資料技術與應用 Redis
1.基礎知識 redis是用c語言開發的乙個開源的高效能鍵值對 key value 資料庫。它通過提供多種鍵值資料型別來適應不同場景下的儲存需求,目前為止redis支援的鍵值資料型別如下字串 列表 lists 集合 sets 有序集合 sorts sets 雜湊表 hashs wget步驟如下 將r...
大資料技術與應用學習日誌
大資料定義 大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案系統 分布式資料庫 雲計算平台 網際網路和可擴充套件的儲存系統。最小的基本單位是bit,按順序給出所有單位 bit byte kb mb gb tb ...