平時企業都會處理資料質量的問題,越來越能夠懂得資料庫整套系統的執行模式和模型概念,深深覺得資料探勘的本質其實不僅僅是從海量的資料中發現有效的,有用的,有目的性的資料,深入來說,如果大資料平台裡的資料質量根本無法保證,那麼資料探勘就是毫無意義的,命中率和精確度根本沒有參考價值。但是問題就出在這裡,外圍系統抽取隔離的資料,要怎麼樣清洗和梳理才能夠在資料的源頭上盡可能的提高資料質量?不可能每個人都懂業務,對針對性業務方面的資料質量如何提公升。
在各個環節控制質量的最開始,我們需要對資料質量管理進行標準定義處理。即對元資料進行梳理,並按照元資料管理理念,對各個環節的資料進行管控。在此只**結構化資料,非結構化資料可以結構化之後再以此法繼續。
1、元資料管理
元資料管理簡單來說,就是建立一套標準的指標(度量)、口徑(維度)等體系,建立相關的單位、分組等支撐資訊。目的是保證各環節的資料一致性和統一性。
2、資料產生階段的質量管理手段
方法:控制輸入
盡可能的使用非開放式的輸入手段,如下拉列表、單核取方塊、時間控制項、標籤(支援自定義學習型)等。必須開放的輸入部分,進行必要的校驗。
網際網路行業的log資料質量之高,簡直不需要進行此步驟的管理!可以說網際網路的log分析直接推動了大資料分析發展的程序。
3、資料儲存階段的質量管理手段
方法:資料統一在資料結構設計時,就應該按照標準對相同含義的字段統一命名、格式、精度等,排除資料的歧義。
4、資料加工階段的質量管理手段
方法:資料清洗資料加工階段的目的非常明確,但資料問題繁多,不同的問題需要使用不同的手段處理,詳細操作手段見另外乙個回答:資料探勘中常用的資料清洗方法有哪些?
5、資料使用階段的質量管理手段
資料使用階段還需要質量管理?當然!無論是在資料分析還是資料探勘之後,結果自然是要儲存下來的,此時的資料仍然要按照標準,進行規範的管理,無論是儲存結果的表名,還是字段、格式等。此外,在資料分析、挖掘的時候,也會有新的資料產生,此時依然需要進行標準化之後進行統一管理。
6、資料質量的持續監控和完善
資料質量管理並不是乙個流程做完就結束了。如同戴明環一樣,資料質量同樣要建立乙個環,不斷發現問題,彌補問題。在各個環節新發現的各種問題,定期進行分析,確定應對方案,並加以改進。質量乃資料之根本,沒有質量,資料便不可信,在此之上的資料分析、資料探勘更是一紙空談,甚至是大謬論。
每個企業都會存在資料質量問題。所有人都知道資料分析、資料探勘的80%工作量都在資料處理上。但是與資料分析、資料探勘紅得發紫的熱度相比,資料處理顯得冷清多了。
如何利用大資料做好資料分析
資料分析的概念早已成為每個人的家常便飯,資料分析技能也成為求職者和職場人員的一大亮點。對於面對自身累積的龐大財務資料,業務資料和運營資料,流量資料及其他資料資產的公司,公司如何利用大資料並進行大資料分析?我們從以下幾個方面來了解一下。一.什麼是大資料分析?我們知道,資料分析是指通過某種統計分析方法對...
大資料 資料分析 資料探勘
在大資料領域裡,經常會看到例如資料探勘 olap 資料分析等等的專業詞彙。如果僅僅從字面上,我們很難說清楚每個詞彙的意義和差別。大講台老師通過一些大資料在高校應用的例子,來為大家說明白 資料探勘 大資料 olap 資料統計的區別。一 資料分析 資料分析是乙個大的概念,理論上任何對資料進行計算 處理從...
大資料系列之大資料分析如何權衡儲存
文章講的是大資料系列之大資料分析如何權衡儲存,系列1 未來24個月市場趨勢和it投入重點 系列2 大資料分析對it資源的需求 在之前的系列1和2中,我們已就大資料分析的發展趨勢以及對it資源的需求進行了解析。接下來,針對大資料分析的重要一環 儲存,中橋將結合市場熱門的儲存技術如快閃儲存器 固態盤等,...