下面將逐個介紹各種常見分類方式,並簡單介紹每種分類的使用場景,以及對每個角色的重要程度。
(1)從欄位型別上:文字類(string、char、text等)、數值類(int、float、number等)、時間類(data、timestamp等)
該分類對每種角色的重要程度:
(2)從資料結構上:結構化資料、半結構化資料、非結構化資料
這種分類方式近幾年特別重要,相關的場景包括:其一,結構化資料是傳統資料的主體,而半結構化和非結構化資料是大資料的主體。後者的增長速度比前者快很多,大資料的量這麼大,主要是因為半結構化和非結構化資料的增長速度太快。其二,在資料平台設計時,結構化資料用傳統的關聯式資料庫便可高效處理,而半結構化和非結構化資料必須用hadoop等大資料平台。其三,在資料分析和挖掘時,不少工具都要求輸入結構化資料,因此必須把半結構化資料先轉換成結構化資料。
該分類對每種角色的重要程度:
(3)從描述事物的角度:狀態類資料、事件類資料、混合類資料
這種分類方式在資料倉儲建模是特別重要。資料倉儲需要儲存各種歷史資料,不同型別的歷史資料儲存方式差別很大。狀態類資料儲存歷史的方式一般有兩種:儲存快照或者scd方式。事件類資料一旦發生就已經是歷史了,只需直接儲存或者按時間分割槽儲存。混合類資料儲存歷史比較複雜,可以把變化的字段分離出來,按狀態類資料儲存,剩下不變的則按事件類資料儲存,使用時再把兩者合併。另乙個相關場景就客戶畫像,客戶畫像通常用狀態類資料,對於和客戶相關的事件類資料和混合類資料,也會轉換成和狀態類資料相同的形態。
該分類對每種角色的重要程度:
(4)從資料處理的角度:原始資料、衍生資料
這種分類方式主要用在管理資料上,對原始資料的管理和衍生資料的管理有一些差別。原始資料通常只要保留乙份,衍生資料卻不同,管理形式比較靈活,只要有利於提高資料分析和挖掘效率,產生更大的資料價值,任何形式都可以嘗試。比如為每個業務條線定製個性化資料集市,提高每個業務條線的資料分析效率,雖然不同集市存在大量冗餘的資料,但只要能大幅提高分析效率,用空間換時間也未嘗不可。
該分類對每種角色的重要程度:
(5)從資料粒度上:明細資料、彙總資料
這種分類方式的相關場景有兩種,一種是在資料倉儲設計時,如何對資料進行彙總,按什麼方式進行彙總,才能達到使用效率和彙總成本的平衡。另一種是資料分析人員在分析資料時,在明細資料、各種彙總資料之間選擇合適的資料,以提高分析效率。
該分類對每種角色的重要程度:
(6)從更新方式上:批量資料、實時資料
這種分類方式也非常重要,目前有越來越多系統採取該方式提供資料。這對資料處理、資料分析和資料應用產生了巨大的影響。一方面能為業務提供近乎實時的資料和報表支援,實現高時效的業務場景。另一方面也極大地增加了資料架構、資料分析和應用的技術難度。
該分類對每種角色的重要程度:
石油資料的分類方式
乙個資料有多種屬性,在實際應用過程中,可以用多種方式對資料進行分類,無論哪種分類也只是從乙個維度將資料的特性分開,資料分類有些是為了實際應用,有些是為了技術實現。從多年的資料管理實踐工作中,認為以下分類對資料的管理和應用非常重要。1 資料主被動產生分類 2 資料kid分類 在所有的石油資料中,有些是...
傳輸方式的分類
1 面向有連線型和面向無連線型 在傳送資料之前,需要在收發主機之間建立一條通訊線路。必須在通訊傳輸前後麼專門進行建立和斷開鏈結的處理。如果與對端之間無法通訊,就可以避免傳送不必要的資料。在面向有連線型的情況下,傳送端的資料不一定要分組傳送,電路交換也屬於面向有連線的一種方式。面向無連線型不要求建立和...
Python基本資料分類方式
一 記憶體模型 依據變數在記憶體中的組織分類 python的型別,就象絕大多數其它語言一樣,能容納乙個或多個值。乙個能儲存單個字面物件的型別我們稱它為原子或標量儲存,那些可容納多個物件的型別,我們稱之為容器儲存。容器物件有時會在文件中被稱為復合物件,不過這些物件並不僅僅指型別,還包括類似類例項這樣的...