hive學習筆記10

2021-10-21 17:28:17 字數 480 閱讀 8582

hia各位好,之前寫的很簡單的sql語句,然後就要py預處理,這很low,也很費時間,這裡必須面對這些問題。因此要採用hive-sql的處理方法,直接讀取後就是結果,無需再次預處理,節省時間。

1-分割字串

split即可,這個與python的同名函式是一樣的效果,不知道為null時是什麼效果,應該為null/空

2-字典中的鍵值對(取key或value)

get_json_object即可完美解決問題,可能需要美元符號,這個也沒難度,搜下,然後照葫蘆畫瓢即可(只需要在美元符號那裡改即可)

沒有同樣為空。

3-列表中的元素

經分割後的字串可能是幾個字串構成的列表,那麼想要其中符合要求的元素(或者符合要求的第1個元素)怎麼辦?

這個也是用get_json_object解決,真是6得一批,同事大佬的方法可以。我自己採用的是split用雙引號分割的,效果一樣的。

這些節省了好多時間啊。拜拜,有遇到再補充記錄。

Hive學習筆記10 元資料解析

hive元資料不存放在hdfs上,而是存放在rdbms上,典型的如mysql derby等。use hive 使用 hive 資料庫庫 show tables mysql show tables tables in hive bucketing cols cds columns v2 databas...

Hive學習筆記 Hive 引數

第一部分 hive 引數 hive.exec.max.created.files 說明 所有hive執行的map與reduce任務可以產生的檔案的和 預設值 100000 hive.exec.dynamic.partition 說明 是否為自動分割槽 預設值 false hive.mapred.re...

Hive學習筆記 Hive概述

1.1 資料倉儲 可以利用資料倉儲來儲存我們的資料,但是資料倉儲有別於我們常見的一般資料庫。資料倉儲是乙個面向主題的 整合的 不可更新的 隨時間不變化的資料整合,它用於支援企業或組織的決策分析處理。物件導向的 倉庫中的資料是按照一定的主題進行組織的。主題即使用者使用資料倉儲進行決策時所關心的重點方面...