今年剛畢業的我就進入了資料探勘這行,沒過多久開始使用hadoop寫了零星幾個mapreduce,現在開始使用hive,並且在可預見的未來若干一段時間內還會一直用,可是網上關於hive的文章太雜亂,所以現在就讀過的文章和知識點進行梳理和記錄,希望經過一段時間的積累和學習後能夠將hive歸檔,把hive的使用、特性、優化甚至加入例項放到一起,到時候發布出來方便大家使用。
先放幾個工具位址
首先肯定是官方文件:
(2023年12月十幾號的時候hive的官方文件應該是更新了,這幾天看了下發現比之前的文件詳細了好多啊!)
內建函式及其用法示例:
目錄:join
關於增加分割槽和刪除分割槽
Hive學習筆記 Hive 引數
第一部分 hive 引數 hive.exec.max.created.files 說明 所有hive執行的map與reduce任務可以產生的檔案的和 預設值 100000 hive.exec.dynamic.partition 說明 是否為自動分割槽 預設值 false hive.mapred.re...
Hive學習筆記 Hive概述
1.1 資料倉儲 可以利用資料倉儲來儲存我們的資料,但是資料倉儲有別於我們常見的一般資料庫。資料倉儲是乙個面向主題的 整合的 不可更新的 隨時間不變化的資料整合,它用於支援企業或組織的決策分析處理。物件導向的 倉庫中的資料是按照一定的主題進行組織的。主題即使用者使用資料倉儲進行決策時所關心的重點方面...
hive學習筆記
在使用hive進行開發時,我們往往需要獲得乙個已存在hive表的建表語句 ddl 然而hive本身並沒有提供這樣乙個工具。要想還原建表ddl就必須從元資料入手,我們知道,hive的元資料並不存放在hdfs上,而是存放在傳統的rdbms中,典型的如mysql,derby等,這裡我們以mysql為元資料...