elasticsearch
elasticsearch 簡稱es : 分布式可擴充套件去中心化的實時搜尋和分析引擎
去中心化:即無主節點,對外部來說,無論你訪問的是哪個節點,都是和整個集群在互信。它的主節點是可以通過選舉產生的。
特點:分布式實時檔案儲存,並將每乙個欄位都編入索引,使其可以被搜尋;可以擴充套件到上百臺伺服器,處理pb級別的結構化或非結構化資料。
儲存:elasticsearch是面向文件型資料庫,一條資料是乙個文件,用json格式儲存。
搜尋:es的一切設計是為了檢索快速響應。使用倒排索引的設計方式,為每一列都建立索引。雖然會犧牲插入和更新的效率,但es的核心是查詢。
shards : 索引分片。將乙個大的索引分成多個分片,分布到不同節點上,構成分布式搜尋。只能在索引建立前指定,其後不可更改。
replicas :副本。 1、提高容錯性 2、查詢時可以負載均衡。
recovery : 資料重新分布。 新增或減少節點的時候,會recovery
kafk高吞吐量的分布式發布訂閱訊息系統 受zookeeper管理
kafka的特性:
redis: 高效能的key-value資料庫。
原子性:要麼都成功,要麼都失敗;同時基於原子性也可以支援到事務,使用multi和exec指令包起來支援事務。
基於記憶體: redis執行在記憶體中但是可以持久化到磁碟。
效能極高: redis能讀的速度可以達到100000次/s,寫的速度是80000次/s 。
hive 基於hadoop的乙個資料倉儲工具
1、hive本身不做資料儲存,資料存放在hdfs上,對於表來說則是hdfs上的乙個預定義好的額目錄。hive不支援對資料的修改和增加。
2、hiveql是一種類sql,最終會轉化為hadoop的mapreduce任務。學習成本低,通過類sql實現mr任務,使邏輯可讀性增強。
3、hive適用於離線的大資料分析統計,有很高的延遲,在任務的提交和排程的時候都有很大的開銷。所以幾百mb的資料不適於用hive分析統計。
hive特性
● 支援建立索引,優化資料查詢。
● 不同的儲存型別,例如,純文字檔案、hbase 中的檔案。
● 將元資料儲存在關聯式資料庫中,大大減少了在查詢過程中執行語義檢查的時間。
● 可以直接使用儲存在hadoop 檔案系統中的資料。
● 內建大量使用者函式udf 來操作時間、字串和其他的資料探勘工具,支援使用者擴充套件udf 函式來完成內建函式無法實現的操作。
● 類sql 的查詢方式,將sql 查詢轉換為mapreduce 的job 在hadoop集群上執行。
spark 基於記憶體的計算。
**使用場景:**可以支援互動式查詢(spark sql)、批處理、流計算(spark streaming)、圖計算(graphx)、機器學習(spark mllib)。
通用性:spark不同處理不同型別的資料可以在乙個應用中無縫使用,統一的解決方案有效減少開發、減少維護的人力成本和部署平台的物力成本。
**相容性:**spark主要執行在hadoop上,可以支援hadoop的hive、hbase和cassandra等主要資料格式。所以hadoop上只需安裝spark即可使用這些功能,無需資料格式的遷移。
應用flink: 流處理 基於記憶體的,也可定製化記憶體計算,避免oom錯誤
特點:1、記憶體計算,也可定製化記憶體來避免記憶體溢位錯誤。
2、高吞吐、低延遲
3、支援視窗
4、exactly once語義保證
flink最主要兩點: 視窗和exactly once
1、有界流 處理有界流等待所有資料到達即可計算,這點沒什麼可說的。
2、無界流 處理無界流需要用到視窗,視窗可以是時間(每10秒鐘)、條數(每100條)、session等。在無界流達到上述視窗期時啟動一次計算,如count等。
3、exactly once 如果有節點失敗,flink會從最近的乙份快照開始重放資料來保證資料不丟失,而且它還會保證資料不會重複計算。
storm: 流處理。
hbase: bigtable 基於hadoop的列式儲存,時間戳記錄。
hbase是一種hadoop資料庫,經常被描述為一種稀疏的,分布式的,持久化的,多維有序對映,它基於行鍵、列鍵和時間戳建立索引,是乙個可以隨機訪問的儲存和檢索資料的平台
hbase使用場景和成功案例
網際網路搜尋問題:爬蟲收集網頁,儲存到bigtable裡,mapreduce計算作業掃瞄全表生成搜尋索引,從bigtable中查詢搜尋結果,展示給使用者。
抓取增量資料:例如,抓取監控指標,抓取使用者互動資料,遙測技術,定向投放廣告等
內容服務
資訊互動
資料中臺
資料中颱是指通過資料技術,對海量資料進行採集、計算、儲存、加工,同時統一標準和口徑。
資料中臺建設的基礎還是資料倉儲和資料中心,並且在數倉模型的設計上也是一脈傳承,之所以我們現在處處推崇資料中臺建設及應用,乙個是因為資料中臺確實有過人之處,另乙個是這套模型在阿里體現了巨大的應用價值。
資料中臺能力
資料資產管理 資料質量管理 資料模型管理 構建標籤體系
資料應用規劃及實現
資料中臺策略的基本理念是,將所有的資料匯聚到資料中臺,以後的每個資料應用(無論是指標和分析類的,還是畫像類和大資料類的)統統從資料中臺獲取資料,如果資料中臺沒有,那麼資料中颱就負責把資料找來,如果資料中颱找不來,就說明當前真沒有這個資料,資料應用也就無從展開。
資料中臺構成
資料倉儲 大資料中介軟體 資料資產管理
MODIS資料產品介紹
中解析度成像光譜儀 moderate resolution imaging spectroradiometer modis是terra和aqua衛星上搭載的主要感測器之一,兩顆星相互配合每1 2天可重複觀測整個地球表面,得到36個波段的觀測資料,這些資料 將有助於我們深入理解全球陸地 海洋和低層大氣...
大資料介紹
大資料技術的戰略意義不在於掌握龐大的資料量,而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長,也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料,儲存在資料庫中 90 的非結構化資料,它們與人類資訊密切相關 資料結構 參閱c語言資料結構 資料結構是計...
大資料介紹
一 什麼是大資料 大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取 管理和處理的資料集合。大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統,分布式資料庫,雲計算平台,網際網路,和可擴充套件的...