「池塘捕魚」和「大海捕魚」作模擬:
運營式系統階段
該階段資料是伴隨運營活動產生並記錄在資料庫中
使用者原創內容階段
web2.0時代。以部落格、微博為代表的新型社交網路出現,其次是智慧型手機、平板電腦為代表的新型移動裝置的出現
感知式系統階段
遍布社會各個角落的感測器裝置產生新資料
流處理的基本理念:資料的價值隨著時間的流逝不斷減少,因此應盡可能快地對最新的資料做出分析並給出結果(實時處理)。
典型代表:twitter的storm、yahoo的s4和linkedin的kafka等
基本理念:先儲存後處理
典型代表:google的mapreduce
過程:從多樣性的資料中提取出關係和實體,同時需要對資料進行清洗保證質量和可信性,經過關聯和聚合之後採用統一定義的結構來儲存。
分類:基於物化或etl方法的引擎、基於聯邦資料庫或中介軟體方法的引擎、基於資料流方法的引擎及基於搜尋引擎的方法
視覺化技術
互動式資料分析過程
大資料價值的完整體現需要多種技術的協同
典型代表:google的gfs(google file system)、**的tfs(tao file system)等
採用mapreduce並行技術優化多值查詢:maptask各部分的並行查詢來提高效率
採用索引技術優化多值查詢:多維索引
典型代表:google的pregel圖計算模型,用於圖的計算。核心思想源於著名的bsp計算模型
實時處理的模式選擇中:
流處理模式
批處理模式
二者融合
hadoop是目前最流行的大資料處理平台
廣泛的異構型
資料質量
資料處理的實時性
動態變化環境中索引的設計
先驗知識的缺乏
集群中不同機器的硬體異構型帶來大資料處理難題
新硬體可能帶來的變革
從設計學的角度來看,易用性表現為:易見(easy to discover)、易學(easy to learn)和易用(easy to use)。則有3個基本原則:
視覺化原則(visibility)
反饋原則(feedback)
大資料管理技術 軟體常見埠彙總
2 spark部分 幾個重要的埠彙總 總結 按埠號公升序排列 2181 zookeeper的rpc埠號 6379 redis的埠號 7077 spark基於standalone的提交任務的埠號 8020 高可用訪問資料rpc 8080 spark的webui的埠號 8080 master的webui...
大資料融合技術 問題與挑戰
本文為 大資料融合研究 問題與挑戰 的總結。資料的特點 資料湖 資料整合的物件,即資料與知識的複合體。傳統的關係型資料是先有模式 表 再有資料,而資料湖是先有資料再有模式。大資料融合存在的問題 普遍採用3v 海量 高速 型別多樣 特性下的整合技術。關鍵技術 模式 本體對齊 利用屬性名稱 型別 值的相...
Hadoop基本概念與資料管理策略
快 block hdfs的檔案被分成塊進行儲存,hdfs塊的預設大小為64m,塊是檔案儲存處理的邏輯單元 namenodenamenode是管理節點,存放檔案元資料,元資料報含以下兩個部分 檔案與資料塊的對映表 資料塊資料節點的對映表 datenodedatenode是hdfs的工作節點,存放資料塊...