渠道資料集市隸屬於大資料平台倉庫系統下的乙個集市。
先初步歸整一下,現有的基於hadoop系統的資料倉儲。
作為資料倉儲需要實現以下基本功能:
1、資料儲存與提取:基於hdfs的分布式檔案儲存系統。
主要要求:
適合較為集中的大資料檔案(比如至少大於100m的歸併檔案)存入hdfs的塊中。
小檔案佔hdfs的塊數,所以需要設定對應合理的歸併策略(你並沒辦法保證源系統給的都是足夠大的檔案)
需要較為充足的本地空間,hdfs空間大小與本地空間大小至少在50:1較為合適。
如果接入的源系統數量為100,本地至少需要保留對應儲存5個系統2-3年全量資料的能力。
2、資料查詢與分析:
查詢主要使用impala和hive
hive主要優點建表穩定,後台執行平穩不易出錯,impala相對於hive優點就是查詢快
建議源系統來的資料直接etl過程轉換成外部表對應檔案建立對映
kudu作為目標實現實時更新對應資料表中間儲存工具,目前實驗環境正在安裝。
問題有:在集群上布好對應安裝包後,前台控制頁面也在parcle中顯示kudu存在,但服務沒有對應新增。
後續rhadoop相關在實驗環境安裝,可以作為內嵌的分析工具。
對於外部工具 sas可以連線impala或hadoop的藉口
同時sas單純的作為日常提數工具,也太浪費功能了。
目前除了sas公司提供的相關藉口 還未蒐集到相關的解決方案。
這個希望能在集市供數上提前做好設計。
3、資料管理與維護
資料作為一種資產來管理與維護。
資料本身的價值是作為記錄事實的價值,為了記錄事實而持久化資料儲存於倉庫中。
在這個儲存的過程中,需要明確儲存的資料的質量和使用頻率、產生價值。
最簡單的質量包括:資料錄入正確、資料分配合理。
大資料平台hadoop與之前定義的資料倉儲最本質的區別是其對資料冗餘的低成本可接受。
下面是一些大資料平台倉庫建設的思路
資料使用頻率:需要根據資料自身的屬性來定義不同層次的資料維護與使用方案。
舉例:在倉庫中的貼源層的表盡量使用外部表,
被使用的方式僅限於錄入正確性查詢和後續倉庫中間層、集市應用層的提供資料。
在資料中間層的資料表是基於貼源層資料和部分業務基礎邏輯生產出來的統計資訊。
資料中間層的建設需要包括固定的統計資訊生成表建設(作為各項報表的基礎);
一般的資料倉儲在這一層(p層)會做資料倉儲級別的建模,建立資料對映,將對應同類資訊歸檔到乙個系列(主題)
這個是基於倉庫級必須建立的,但是不代表我們就只使用這乙份資料,我認為這裡是大資料平台倉庫和原始資料倉儲最重要的區別,它不會在乎空間大小,只要不是過量冗餘,且計算出或歸併出結果能夠為後續集市層應用或其他應用創造方便就可以建立。
目前針對大量資料表有進行拉鍊表的處理,但是如果一旦需要恢復拉鍊表最初始的形態就會異常困難。
基於各源系統的表,在分析時越貼源越方便且有價值。(做微粒貸的時候深深感到痛苦)
在集市應用層的資料表時根據業務日常分析報表需求的內容,盡可能滿足業務方便展現的內容。
資料分析與挖掘的價值就在於利用統計工具、各類外部方法發現現有資料的剩餘價值。
包括資料自身和資料關聯兩大方面。
2023年8月13日 17日計畫
很多事情做著做著就偏了,半途而廢了。因為周計畫沒做,所以隨波逐流了。因此,在每週日定下周計畫,至於太長的規劃,不要想太多,太大的目標容易畏懼和自暴自棄。周一 gdal原始碼剖析 6.1.7建立檔案 vc影象處理 2.2.1影象放縮 opencv 3.2.3bgr直方圖 周二 gdal原始碼剖析 6....
學習總結計畫2023年4月13日
本週總結 已經有意識進行記錄,隨時把自己的一些想法記錄下來,這樣就可以把自己一些突然的好想法或者計畫抓下來。我認為這種不經意的靈感非常重要。這方面希望自己能夠堅持。自己也在有意識理清自己頭腦中的一些想法,並進行深入思考。例如,學習python的路徑是什麼?雖然沒有完成但是已經有這個想法了。本週在程式...
2023年3月20日學習筆記
css中的盒子模型分為兩類,標準盒模型 w3c 和怪異盒模型 ie 標準盒模型即 盒子寬度 width padding left padding right margin left margin right border left border right 如下圖所示。盒子寬度為80px 20px ...