數倉etl**優化 - 找到經常在一起做join的表
數倉etl**優化 - 表字段 被過濾和聚合的次數
資料倉儲是什麼,如何建立(總結)
資料倉儲解決問題和分層設計好處
一致性維度表 設計思路
一致性事實表 設計思路
資料倉儲-元資料簡單總結
元資料-血緣分析-應用場景總結
資料資產管理-簡單總結
數倉-hive元資料收集指標
hive元資料收集(python版本)
hive元資料使用場景落地(python版本)
hive 字段級血緣分析 寫入neo4j
hive - udaf開發(字串**現 指定字元的次數,再求次數的平均數)
hive sql 遷移到 spark sql 問題集合
hive - udtf開發(指定分割符分割字串,返回對應的大小寫字串)
hive map和reduce數量 優化點
sqoop 同步parquet partition hive表
hive元資料 表結構
hive metastore部署方式
hive sql - multi distinct 優化
hive sql 計算留存率 思路
hive分割槽表新增欄位cascade 執行時間過長出現bug
hive collect_set 結果順序不一致
hive orc表 刪除字段
同乙個sql 在hive和spark-sql 跑出結果不一樣記錄
dr elephant(hive job監控調優)安裝使用
通過 dr-elephant 監控異常hive任務並報警
dr-elephant 丟失部分 yarn job
獲取yarn上執行時間最長的job列表,並檢視是否存在資料傾斜
hive sql資料傾斜情況以及解決辦法
mr過程
spark-dagscheduler之job的提交劃分stage
hive表 占用hdfs空間 top表查詢
hdfs檔案壓縮工具,支援各種壓縮格式
跑滿yarn資源-優化方向
yarn佇列資源、namenode等資料指標監控
yarn集群資源如何分配
yarn假死處理(job超過10000個)
zeus排程工具啟動慢(zeus_action資料量太大)
一、hera排程系統基本資料結構(event、listener、dispatcher)
二、hera排程系統初始化、生成和清理版本
三、hera排程系統 待執行佇列 入隊和出隊時機
hadoop yarn元件介紹
yarn-container申請和分配
搭建cdh 阿里雲 (step 1: 啟動hdfs)
搭建cdh 阿里雲 (step 2: 啟動yarn)
搭建cdh 阿里雲 (step 3: 搭建hive)
hive on spark搭建(cdh)
部落格搜尋引擎列舉 部落格搜尋引擎的淺比較
部落格搜尋引擎列舉 部落格搜尋引擎的淺比較 今天突然想使用 部落格搜尋引擎 所以找到啦這篇在譯言翻譯的文章。o o.特點 推送新文章較快 部落格搜尋引擎的目的在於索引部落格 並顯示一些可以在feed裡輕易找到的資訊,像文章日期 作者或該文章所標記的所有tag。不像web搜尋引擎,部落格搜尋引擎要爬的...
阿Y 建立個人部落格的四大好處
作為乙個站長,如果你還沒有部落格,那就太程式設計客棧落伍了。這裡所說的部落格並非新浪部落格 天涯部落格等,而是屬於自己的個人部落格。那麼我們為什麼要建立個人部落格,個人部落格對於我們站長又有什麼好處呢?那麼筆者就以本人的佛山seo排名首頁的部落格作為案例來談談吧。第一 個人部落格更自由更方便 個人部...
如何生成 markdown 文件的內容索引
目前很多文件都是用 markdown 格式編寫,並且以 的形式託管在 gitlab 上,同時,使用 gh md toc 來生成文件目錄。但是,gh md toc 會直接將結果列印到 stout,而我們想要直接將其新增到文件頭部,而不是從 stdout 再複製貼上,然後還要格式化空行。顯然,我們需要將...