資料探勘 認識資料

2021-09-22 16:46:35 字數 1711 閱讀 1316

越來越多的人認識到,資料對這個世界的影響越來越大,掌握資料就掌握了發言權。如何從資料中找到想要的知識,是得到資料之後最需要關心的。資料探勘,也是知識發現的過程。

1、理解資料

現實世界中,各行各業每時每刻都在產生數量龐大的資料集,讓人眼花繚亂,應該怎樣理解和處理資料呢?

資料集由資料物件組成,乙個資料物件代表乙個實體,也可稱樣本、例項、資料點或者物件。那麼,該如何刻畫這些資料物件呢?一般在資料倉儲範圍使用術語「維」,在機器學習領域使用術語「特徵」,在統計學領域使用「變數」。這些術語,和「屬性」一樣,都是樣本的乙個資料字段,可以互換使用。比如,在學生資訊資料庫中,每乙個學生都是乙個資料物件,而學生的各類基本資訊都可以用來標識這個學生,如身高、體重、年齡、生日、家庭住址等等,這些都屬於特徵。

2、資料物件型別

資料物件的型別不一樣,表現形式也不同。大體有這麼幾類,如數值型、文字型、影象、聲音等等。現在隨著資料越來越複雜,混合型資料也越來越多。如醫學檢查中既有文字,也存在數值;醫療影像中,既有影象、文字,也會有數值等等。資料型別不同,處理方式也會不同,不能一概而論。

3、屬性型別

資料物件由屬性來刻畫,那麼屬性有哪幾種型別呢?屬性型別的判斷是根據屬性的值的形式決定的,一般分為二元、標稱、序數和數值。

3.2.1、二元屬性

二元,即0和1,在計算機中使用非常廣泛,在這裡形容乙個屬性,只能在兩種狀態中選擇乙個,如男或女,是否抽菸,是否生病等等。二元屬性分對稱和非對稱。如果是對稱的,就是指這兩種狀態,發生任何一種概率是相同的,比如男女,理論上嬰兒是男或者女的概率差不多;如果是非對稱的,就是說兩種狀態的發生概率明顯不同,如是否患口腔癌,社會上口腔癌患者比例還是遠低於正常人比例。一般使用1對稀有狀態進行編碼,0對常見狀態進行編碼,在是否患口腔癌屬性上,患病為1,正常為0。

3.2.2、標稱屬性

標稱,「與名稱相關」,標稱屬性的值是一些符號或事物的名稱,因此,標稱屬性沒有意義。簡化的理解,就是從有限的離散資料中取值。舉例來說,頭髮顏色有黑、白、黃、棕等等,這是有限的離散值;學生的學號,可以從1排到200,這也是有限的離散值。

標稱屬性值可以進行編碼,但是編碼之後也不能賦予它數值上的意義。如頭髮顏色黑=1,白=2,黃=3,棕=4,那麼2-1並不能說明什麼。另外,對1234幾種顏色,求他們的中位數或者平均值也不能說明什麼,如平均值為2.1,能說明什麼呢?但是眾數還是有意義的,但是眾數跟編碼數值並沒有關係。

3.2.3、序數屬性

序數屬性跟標稱屬性有點類似,都是從有限的離散值中取值,他們的不同在於序數屬性的值是有意義的。

比如,食堂飯菜調查,1=非常滿意,2=滿意,3=還行,4=不滿意,那麼平均值為1.3,說明食堂飯菜還是得到了大多數人的認可。

這裡也可以看出。二元、標稱和序數三種屬性,是定性的,他們的值一般是代表類別的,是可編碼的。

3.2.4、數值屬性

數值屬性跟上述三種屬性不同,它是定量的,是可以通過科學手段,或者是社會常識進行標定的,包括離散型和連續型。

離散型:比如電子病歷資料集,字元數屬性的值就是離散的;銀行的個人資訊資料集,個人資產屬性值也是離散的。

連續型:一般連續型數值採用浮點變數表示,但是實際過程中,大多數連續型數值並不會對整體資料都太大影響,所以會採用離散值代替。如此時氣溫,根本採集不到最準確的,就會小數點後取一位就可以了,如23.4度。

4、總結

在拿到資料集的時候,首先分析資料集中有多少子資料集,然後對每個子資料集進行分析,看有多少資料物件,每個資料物件有多少屬性。只有完成這些工作,才可以說是對資料集有了整體掌握,才可以進行下一步的資料工作。

大資料探勘 認識資料

資料集由資料物件組成,乙個資料物件代表乙個實體。屬性,是乙個字段,表示資料物件的乙個特徵。在文獻中,屬性 維 特徵和變數可以互換的使用。用來描述乙個給定物件的一組屬性稱做屬性向量 特徵向量 標稱意味著 與名稱相關 標稱屬性的值是一些符號或事物的名稱。每個值代表某種類別 編碼或狀態,因此標稱屬性又被看...

從整體上認識資料探勘

資料收集和資料儲存技術的快速進步,使得積累海量資料已成為家常便飯。然而,提取有用的資訊也成為巨大的挑戰。通常,由於資料量太大,無法使用傳統的資料處理工具和技術處理它。資料探勘 技術由此產生,資料探勘技術,它將傳統的資料分析方法與處理大量資料的複雜演算法相結合,從而實現處理大量資料的目的。資料探勘是在...

《資料探勘》學習筆記 認識資料 2

一 資料的基本統計描述 資料的基本統計描述是為了從資料的統計結果中了解資料的大體特徵,方便對資料進行分類 梳理。其中統計的主要內容包括中心趨勢度量 資料散布度量。其中中心趨勢度量主要討論的內容有均值 中位數 眾數和中列數 資料散布度量主要的內容是資料的極差 四分位數 四分位極差 五數概括 和盒圖。二...