在極客新聞上看到一篇文章《資料中臺解決的三大問題》,文中解決了資料中颱的定義,落地的價值。簡單來說就是要解決效率、質量和成本的問題。
資料中颱是企業級大資料通過系統化的方式實現統
一、標準、安全、共享的資料組織,以服務化的方式賦能前台資料應用,提高資料的使用效率。
資料中颱與資料平台最本質的區別在於資料中颱是具備業務屬性的,輸入的是原始資料,輸出的是指標。資料中臺包含了業務對資料的組織方**,體現在主題域、業務過程的劃分、資料模型的設計,以及對指標、維度、度量的管理。如果要確定乙個資料是指標還是維度,就必須理解業務。
歸結起來,主要是三個:效率、質量和成本。
一、效率問題可以分為資料研發的效率、資料發現的效率和資料分析的效率。
(1)資料研發的效率問題
初期,由於業務模式還不固定,變化比較快,往往缺少良好的主題域和分層設計,煙囪式的開發模式佔據主導,隨著業務複雜度和規模的上公升,大量重複性的資料開發,制約了資料需求交付效率。乙個需求往往需要乙個星期甚至更長時間才能上線,需求響應速度經常被業務部門詬病。
(2)資料發現的效率問題
開發資料和使用資料的人是不同的人,面對動輒數萬張表,每張表有數十個甚至上百個字段,準確理解每張表的含義是一件非常困難的事。如果沒有乙個好用的系統,往往需要大量的溝通成本,工作效率也大打折扣。
(3)資料分析的效率問題
資料分析本身就存在門檻,取數對於大多數非技術專業的運營和分析師就是乙個大問題,遇到技術問題更是不知所措。傳統的資料分析基本依賴分析師的個人經驗,如何將經驗變成一種知識,甚至是一種規範,沉澱到產品中,通過系統自動地進行全維度的鑽取分析,降低資料分析的門檻。
二、質量是資料中心需要解決的第二個問題,質量包括數倉設計的質量、指標的一致性、資料研發的質量。
數倉設計得好不好,主要體現在三個方面,完善度、復用性和規範性。數倉設計一般採用的是面向主題域的分層設計,對於ods層儲存的是業務原始資料,dwd儲存的是經過清洗的明細資料,dws是經過輕度聚合的彙總資料,ads或者dm是應用層、集市層資料,這是乙個常見的4層模型劃分。
完善度就是對於使用者而言,「要啥有啥」,對於不同分層,完善度的衡量方式也各有不同。復用性主要強調的是乙個表被多個表使用的情況,復用性越高,說明數倉的設計越合理,更多的資料在數倉被復用。規範性主要是指數倉中的表、欄位的命名規範統一,相同指標、維度、度量的標識是一致的。
質量還包括資料的質量,如資料的一致性、準確性、及時性以及完整性。
一致性具體表現在集市層相同的指標資料是否一致、維度是否一致、相關指標的趨勢是否一致、不同資料來源對同乙個實體的值是否一致。
準確性體現在數值計算的邏輯是否符合預期,資料格式是否正確。
及時性主要體現在資料產出時延方面。
完整性主要是表記錄是否完整,包括記錄數是否完整,字段是否完整。
三、成本是資料中臺需要解決的第三個問題,成本包括計算資源成本、儲存資源的成本以及人力研發成本。
資料如果不定時清理,就會佔據儲存空間。大資料成本比業務增長還要快,一方面是由於煙囪式的開發導致的資料重複加工,浪費計算和儲存資源,另一方面是由於沒有定時清理無用資料,浪費了大量的儲存資源。
DeFi優先要解決的三大問題
前言 在藍狐筆記看來,2019年是defi元年,也是整個加密世界第二個最大的突破。但是,我們也看到defi在2019年底進入了瓶頸期,其高門檻阻礙了更多使用者的進入,這裡包括高抵押率 使用門檻等。但defi的實驗一定還會繼續,就像中世紀的銀行業剛開始誕生一樣,它最終會逐漸發展成為龐大的金融體系,de...
快取三大問題及解決方案
隨著網際網路系統發展的逐步完善,提高系統的qps,目前的絕大部分系統都增加了快取機制從而避免請求過多的直接與資料庫操作從而造成系統瓶頸,極大的提公升了使用者體驗和系統穩定性。雖然使用快取給系統帶來了一定的質的提公升,但同時也帶來了一些需要注意的問題。快取穿透是指查詢乙個一定不存在的資料,因為快取中也...
快取三大問題及解決方案
隨著網際網路系統發展的逐步完善,提高系統的qps,目前的絕大部分系統都增加了快取機制從而避免請求過多的直接與資料庫操作從而造成系統瓶頸,極大的提公升了使用者體驗和系統穩定性。雖然使用快取給系統帶來了一定的質的提公升,但同時也帶來了一些需要注意的問題。快取穿透是指查詢乙個一定不存在的資料,因為快取中也...