小白學資料,只為記錄學習程序,對每個問題有新的理解會及時更正。
一、hive原理
hive是乙個部署在hadoop上的乙個資料倉儲基礎工具,可以將類sql語言轉化成mr任務,並執行。是的大資料的儲存,查詢更加方便
執行步驟:
1.解析器:把sql語法轉換成抽象書ast,對ast進行語法分析,檢視是是否存在語法錯誤
2.編譯器:把ast轉換成邏輯執行計畫
3.優化器:對邏輯執行計畫進行優化
4.執行器:把邏輯執行計畫轉換成物理計畫,即mr任務
二、spark執行流程
1、啟動resource manager 和work node,然後work node向resource manager進行註冊,resource manager儲存work node的資訊,並向work node返回註冊成功
2、work node定期向resource manager返回心跳,表示是啟用狀態
3、drive通過sparksubmit和resource manager通訊,向resource manager申請資源
4、申請成功後,resource manager和work node進行通訊讓work node啟動excuter
5、excuter啟動後會主動連線driver,連線好後,driver生成task,並通過網路傳送給excuter
6、excuter接收到task後進行執行
三、寬依賴和窄依賴
窄依賴:父類rdd的每個分割槽,都被乙個子類rdd分割槽使用
寬依賴:存在父類rdd的分割槽,被多個子類rdd分割槽使用
四、spark shuffle執行機制
1、上游task任務產生的資料優先寫入到記憶體中
2、當記憶體占用超過閾值時,會把資料溢位,溢位時候會對資料進行排序
3、排序後,將資料寫入到磁碟當中
4、將分批溢位的資料合併到乙個磁碟檔案
5、根據索引檔案,再將每個task產生的檔案分配給下游task
五、什麼情況下需要對資料進行優化
1、資料執行過慢,跟不上業務需求
2、資料執行耗費大量資源,吃掉了很多集群資源,影響了其他業務線
大資料基礎知識
一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資料庫 軟體工具能力範圍的資料集合,具有海量的資料規模 快速的資料流轉 多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案...
大資料基礎知識(待續)
最近要參與大資料治理專案,但大資料相關知識是零,因此從頭開始了解學習。本人學習目的是用於測試,因此jindui 第二步了解mr,mapreduce,mr對hadoop來說是至關重要的,關於這個概念的理解,可以參考這位知友的回答當然慕課網上也有,可以花五分鐘看一下,基於此,基本對hadoop有基本了解...
大資料相關基礎知識
apache hadoop專案包括以下四個主要模組 1 hadoop common hadoop的通用工具集 2 hadoop distributed file system hdfs 分布式檔案系統 3 hadoop yarn 任務排程 集群資源管理框架 4 hadoop mapreduce 基於...