《大資料管理概念技術與挑戰》讀後總結

「池塘捕魚」和「大海捕魚」作模擬：

運營式系統階段

該階段資料是伴隨運營活動產生並記錄在資料庫中

使用者原創內容階段

web2.0時代。以部落格、微博為代表的新型社交網路出現，其次是智慧型手機、平板電腦為代表的新型移動裝置的出現

感知式系統階段

遍布社會各個角落的感測器裝置產生新資料

流處理的基本理念：資料的價值隨著時間的流逝不斷減少，因此應盡可能快地對最新的資料做出分析並給出結果（實時處理）。

典型代表：twitter的storm、yahoo的s4和linkedin的kafka等

基本理念：先儲存後處理

典型代表：google的mapreduce

過程：從多樣性的資料中提取出關係和實體，同時需要對資料進行清洗保證質量和可信性，經過關聯和聚合之後採用統一定義的結構來儲存。

分類：基於物化或etl方法的引擎、基於聯邦資料庫或中介軟體方法的引擎、基於資料流方法的引擎及基於搜尋引擎的方法

視覺化技術

互動式資料分析過程

大資料價值的完整體現需要多種技術的協同

典型代表：google的gfs(google file system)、**的tfs(tao file system)等

採用mapreduce並行技術優化多值查詢：maptask各部分的並行查詢來提高效率

採用索引技術優化多值查詢：多維索引

典型代表：google的pregel圖計算模型，用於圖的計算。核心思想源於著名的bsp計算模型

實時處理的模式選擇中：

流處理模式

批處理模式

二者融合

hadoop是目前最流行的大資料處理平台

廣泛的異構型

資料質量

資料處理的實時性

動態變化環境中索引的設計

先驗知識的缺乏

集群中不同機器的硬體異構型帶來大資料處理難題

新硬體可能帶來的變革

從設計學的角度來看，易用性表現為：易見(easy to discover)、易學(easy to learn)和易用(easy to use)。則有3個基本原則：

視覺化原則(visibility)

反饋原則(feedback)

大資料管理技術軟體常見埠彙總

2 spark部分幾個重要的埠彙總總結按埠號公升序排列 2181 zookeeper的rpc埠號 6379 redis的埠號 7077 spark基於standalone的提交任務的埠號 8020 高可用訪問資料rpc 8080 spark的webui的埠號 8080 master的webui...

大資料融合技術問題與挑戰

本文為大資料融合研究問題與挑戰的總結。資料的特點資料湖資料整合的物件，即資料與知識的複合體。傳統的關係型資料是先有模式表再有資料，而資料湖是先有資料再有模式。大資料融合存在的問題普遍採用3v 海量高速型別多樣特性下的整合技術。關鍵技術模式本體對齊利用屬性名稱型別值的相...

Hadoop基本概念與資料管理策略

快 block hdfs的檔案被分成塊進行儲存,hdfs塊的預設大小為64m,塊是檔案儲存處理的邏輯單元 namenodenamenode是管理節點,存放檔案元資料,元資料報含以下兩個部分檔案與資料塊的對映表資料塊資料節點的對映表 datenodedatenode是hdfs的工作節點,存放資料塊...

《大資料管理 概念 技術與挑戰》讀後總結

大資料管理技術 軟體常見埠彙總

大資料融合技術 問題與挑戰

Hadoop基本概念與資料管理策略

相關推薦

《大資料管理概念技術與挑戰》讀後總結

大資料管理技術軟體常見埠彙總

大資料融合技術問題與挑戰