大資料技術原理與應用 筆記

2021-08-21 01:12:54 字數 727 閱讀 5180

大資料 思路的轉變:

全樣而非抽樣

效率而非精確

相關而非因果

分布式儲存 和 分布式處理

解決了:分布式儲存 、 分布式處理、虛擬化和多租戶;

yarn 簡稱「樣」 作用是起到 排程作用;因為在版本1時 mapreduce 即處理 又負責排程;版本2進行拆分;

(集群資源管理)

解決海量資料分布式儲存問題

幾個重要的概念:1、塊(block)2、name node 和 data node

資料節點會定期傳送自己儲存的塊的列表給主節點(名稱節點)。

fsimage檔案記錄:檔案的複製等級、修改和訪問時間、訪問許可權,塊大小以及組成檔案的塊。對於目錄,則儲存修改時間、許可權和配額元資料。

1、頻繁的讀寫 使用鍵值資料庫更好些

其實就是分布式並行程式設計

hadoop mapreduce是其具體實現。

計算向資料靠攏

1、client

2、jobtracker

3、tasktracker

4、task

1、不同的map任務之間不會進行通訊

2、不同的reduce任務之間也不會進行通訊

分割槽、排序、合併、歸併

之後再分發給reduce

合併(combine)和歸併(merge)的區別:

兩個鍵值對

大資料技術原理與應用筆記(1) 大資料概述

大資料技術與原理 課程筆記 目錄 1.1大資料概念 1.2資料產生方式 1.3技術支撐 1.4大資料的影響 1.5大資料的關鍵技術 1.6大資料的計算模式 1 資料量大 大量化 2 資料型別繁多 多樣化 10 結構化資料,90 非結構化資料 3 處理速度快 快速化 1秒定律 秒級決策 4 價值密度低...

大資料技術與應用 Redis

1.基礎知識 redis是用c語言開發的乙個開源的高效能鍵值對 key value 資料庫。它通過提供多種鍵值資料型別來適應不同場景下的儲存需求,目前為止redis支援的鍵值資料型別如下字串 列表 lists 集合 sets 有序集合 sorts sets 雜湊表 hashs wget步驟如下 將r...

大資料技術與應用學習日誌

大資料定義 大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案系統 分布式資料庫 雲計算平台 網際網路和可擴充套件的儲存系統。最小的基本單位是bit,按順序給出所有單位 bit byte kb mb gb tb ...