由於sqoop從關係型資料直接以parquet格式匯入hive會有問題,這裡預設hive的表都是text格式;
每次導完到臨時表,需要做invalidate metadata 表操作,不然後面直接匯入kudu的時候會查不到資料;
初始化好資料得執行compute stats 表名,不然impala執行sql生成的計畫執行數評估的記憶體不準確,容易評估錯誤導致實際執行不了;
這時候kudu配置引數 --memory_limit_hard_bytes能大點就大點,因為kudu寫入首先儲存再記憶體裡面,到一定閥值才溢寫到磁碟,這個是直接最能提高寫的方法;
可以把--maintenance_manager_num_threads 這個引數稍微調大,需要除錯,提高資料從記憶體寫入磁碟的效率;
kudu表最好不要做任何壓縮,保證原始掃瞄效能發揮最好;假如對查詢效能要求比儲存要求高的話;大部分企業對實時查詢效率要求高,而且儲存成本畢竟低;
kudu針對大表要做好分割槽,最好range和hash一起使用,前提是主鍵列包含能hash的id,但range分割槽一定要做好,可以使用時間做分割槽;
查詢慢的sql,一般要拿出來,方便的話做下explain,看下kudu有沒有過濾部分資料關鍵字kudu predicates;
假如sql沒問題,那在impala-shell執行這個sql,最後執行summray命令,重點檢視單點峰值記憶體和時間比較大的點,對相關的表做優化,解決資料傾斜問題。
大表不要delete,不要猶豫直接drop,在create吧;磁碟空間會釋放的
kudu一般解決實時:
kudu最大優勢是能做類似關係型資料庫一樣的操作,insert, update, delete,這樣熱點的資料可以儲存在kudu裡面並隨時做更新;
hive解決的是離線(通常是t + 1或者 t -1):
hive基於hdfs,hdfs已經提供一套較為完善的儲存機制,底層資料和檔案操作便利;
安全性,可擴充套件性都比kudu強很多,最重要parquet + impala效率要比kudu高,數倉首選是它;
同步工具可以使用streamsets,乙個方便的拖拉拽的工具:
但記憶體使用率高,通過jconsole我們發現,所有任務同時啟動;
jvm新生代的內容幾乎都跑到老年代了,gc沒來的及,就記憶體溢位了;
大資料實效 大資料實效平台
大資料實效平台 雲上大資料倉儲解決方案 阿里雲為企業提供穩定可靠脫機數倉和實時數倉的解決方案,包括資料採集 資料儲存 資料開發 資料服務 資料運維 資料安全 資料質量 資料地圖等完整鏈路。脫機數倉 基於serverless的雲上資料倉儲解決方案。架構特點 開箱即用 簡單幾步開啟自己的一站式大資料開發...
大資料實訓
大資料專業大一新生一枚,學了一年這個專業,我來說一下自己對這個專業的認識,敬請大家指教 物流行業 利用大資料優化物流網路,提高物流效率,降低物流成本等等 大資料還可以應用於個人生活,利用與每個人相關聯的 個人大資料 分析個人生活行為習慣,為其提供更加周到的個性化服務。利用環境資料的外部形勢分析 從市...
大資料實習
我是來自蘭州文理學院數字 學院資料科學與大資料技術的王老五,平時熱愛程式設計,熱愛計算機專業,對本次實習有很大的熱情,本次實習收穫頗多。在為上大學之前,就接觸了大資料這專業,在近幾年來,大資料專業興起,而且前景一直很不錯,就業率也一直很高,大資料涉及的資料規模巨大到無法透過目前主流軟體工具在合理的時...