原文:4 tips for easier data management它發生在我們所有人身上,你會收到新的a/b測試結果和需要驗證的資料。或者你將最新漏斗分析轉化到乙個資料應用中,這樣就可以不斷地收穫你努力工作帶來的好處。當在檢查你工作的時候,你會發現數字沒有增加。資料驗證是任何與資料密切相關的人的生活的一部分。也類似於跟蹤和除錯**,兩者都會導致失敗和看似丟失工作時間。用實際的例子,我將會給一些提示和技巧,以便在你資料分析時,可以快速識別當中的錯誤。
不要假設任何事情
只是因為它似乎是正確的,但並不意味著它真的正確。因為我們常會被自己的大腦所欺騙。我已經注意到這種想法,尤其是當分析師在重新開始或產品化地分析。儘管,最初的查詢或指令碼看起來是一樣的,乙個更深層次的調查並非如此。
接下來,讓我們看乙個人們常碰到的問題:更改乙個聚合查詢。
看看以下兩個查詢:
select
month,
group1,
group2,
group3,
concat(group1, 「-」, group2) as newgroup,
sum(usage) as total_usage
from
usage
group
by1, 2, 3, 4, 5
select
month,
concat(group1, 「-」, group2) as newgroup,
sum(usage) as total_usage
from
usage
group
by1, 2
起初,許多人看到這2個查詢後會認為它們實際上是相同的效果。左邊的查詢僅包含了一些額外的列,對嗎?但這並不算什麼,在左邊查詢中有五個級別的聚合,右邊僅有兩個。由於該組織更加精細化,左邊查詢將返回更小的總數。這取決於你所做的進一步分析,如視窗函式或甚至過濾,這些額外的組可能會造成嚴重的破壞。如果你只是把他們放在管道做未來的查詢,那麼你就不再有不同的分組。
聚合錯誤是最常見導致資料錯誤的原因。即使一開始看起來正確,多兩遍你就會恍然大悟。
這是乙個快速的
由此,我指出另乙個常見的資料錯誤,在過去四年裡,我遇到可把快照表作為一位分析師和一位老師。這些都是資料表在給定時間段內 (每月、 每週、 每天),及時採取數碼快照。
無論出於何種原因,這些型別的**牽絆著許多人。首先,他們往往確定性很差。我這裡的意思是,對於該表中乙個新的消費者,作為快照表不會被立即識別,這樣會造成使用者誤運算元據。乙個簡單的解決方案是預防諸如命名表來反映其內部結構。
如果你懷疑乙個快照表及如何與其一起工作,那麼,你可以使用快照表中的最大識別符號,所有指標過於誇大。你採取一周後得到的結果資料,看起來是否是大了5-7倍?幸運的是,這是乙個簡單對這些表進行修復的工作。你可以縮小到一天,就像你時間週期的最後一天或採用最大價值。可參閱下面的例子:
選擇一天:
select
td_time_format(time, 『yyyy-mm』) as
month,
category,
usage
from usage_snapshot
where td_time_range(time, 『2016-04-01』)
找到最大值:
select
td_time_format(time, 『yyyy-mm』) as
month,
category,
max(usage) as total_max_usase
from usage_snapshot
你決定如何與快照表工作一致是很關鍵的。根據上下文和目標,兩種處理的方法是有效的。
尋找模式
當調查資料驗證問題時,我發現它很有用,試圖找到模式中的一些錯誤。比如,像這樣的一些問題:
幫助你縮小乙個潛在的原因。如果所有的資料都受到影響,罪魁禍首通常是在指令碼或查詢中,而不是在資料本身。然而,如果我注意到某個月或某天有明顯偏低,我將去調查基礎資料。這可能意味著資料收集的問題發生在那個時間段。
如果資料驗證往往按比例與原始資料相比,它可能意味著一些資料一直沒有**獲在你的聚合中。基本邏輯錯誤往往呈現出「隨機」,意思似乎沒有可識別的模式。然而,這種情況是由於不正確處理或簡單,故障邏輯的邊緣情況下發生的。
從頭開始搜查
你已經嘗試了一切,你仍然無法搞明白。現在,是時候開始挖掘了。雖然這很容易從錯誤的答案開始並且逆向工作,或從這個地方開始你認為這都是錯的,但你必須從頭開始。
資料中的錯誤剛開始可能為良性的,但隨著你的工作分析,帶來的問題是指數變的更差。就像乙個數學題:從一開始,找到錯的位置。這部分可能繁瑣和耗時,但在用完了所有技術後,回到最初狀態,觀察你的資料是如何一步步的變化的,這有助於查詢斷點以及斷點位置。
4 Docker資料管理
docker管理宿主機檔案系統的一部分 var lib docker volumes 儲存資料的最佳方式。使用場景 將容器中的資料持久化到宿主機,比如容器是mysql,容器重啟後就沒資料了,此時需要儲存到宿主機上。將宿主機上的任意位置的檔案或者目錄掛載到容器中。使用場景 容器使用一些宿主機上的檔案或...
簡化資料管理的4種方法
如果組織的it團隊似乎有更多的資料需要管理,那麼這就對了。幾乎每個企業都在試圖確定如何在不增加預算或員工的情況下來管理更多的資料增長。調研機構451 research分析師henry baltazar在最近的乙份報告中強調了這一趨勢,指出 資料管理的相關性越來越高,企業必須處理的資料量正在持續增長。...
docker技術學習總結(4) 資料管理
容器中管理資料有兩種方式 資料卷是乙個可供容器使用的特殊目錄,他繞過檔案系統,提供很多有用的特性 資料卷的使用型別linux下對目錄或檔案進行mount操作。在使用docker run命令的時候,使用 v標記可以在容器內建立乙個資料卷,多次使用 v可以建立多個資料卷。使用 v標記也可以指定掛載乙個本...