大資料探勘 認識資料

2021-09-25 05:41:12 字數 1284 閱讀 1173

資料集由資料物件組成,乙個資料物件代表乙個實體。屬性,是乙個字段,表示資料物件的乙個特徵。在文獻中,屬性、維、特徵和變數可以互換的使用。用來描述乙個給定物件的一組屬性稱做屬性向量(特徵向量)。

標稱意味著「與名稱相關」,標稱屬性的值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態,因此標稱屬性又被看做是分類的。

二元屬性是一種標稱屬性,只有兩個類別或狀態:0或1,其中0通常表示屬性不出現,而1表示出現。二元屬性又稱布林屬性。

序數屬性是一種屬性,其可能的值之間具有有意義的序或秩評定,但是相繼值之間的差是未知的。例如grade(成績,a+、a、a-、b+等)

數值屬性是定量的,即它是可度量的,用整數或實數值表示。數值屬性可以是區間標度的或比率標度的。區間標度屬性用相等的單位尺度度量。區間屬性的值有序,可以為正、0或負。例如溫度、日曆日期。比率標度屬性是具有固有零點的數值屬性。比如高度、速度、重量、等,我們可以說乙個數是另乙個數的多少被。

離散屬性具有有限或無限可數個值,可以用或不用整數表示。如果屬性不是離散的,則是連續的。

均值又分為算術平均值和加權算術平均值。均值的主要問題是對極端值很敏感(極端值對均值影響很大)。中位數是該有序集中的中間值。如果n為奇數,中位數就是處在資料集中間的數值,如果n為偶數,它是最中間兩個數的均值。眾數是資料集**現次數最多的數。

極差(range)就是乙個資料集中最大值與最小值的差。分位數是取自資料分布每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合。給定資料分布的第k個q分位的值x,使得小於x的資料值最多為k/q,而大於x的資料值最多有1 - k/q,其中k是整數,使得0 < k < q。我們有q - 1個q分位數。2分位數對應中位數,4分位數有3個資料點,它們把資料分布劃分為4個相等的部分,使得每部分表示資料分布的四分之一,通常它們叫做四分位數。第1個和第3個四分位數之間的距離是散布的一種簡單度量,它給出被資料的中間一半所覆蓋的範圍。該距離稱為四分位極差(iqr)。識別離群點的通常規則是。挑選落在第3個四分位數之上或第1個四分數之下至少1.5 x iqr處的值。五數概括是指min、q1、median(q2)、q3、max。方差與標準差都是資料散布度量,它們指出資料分布的散布程度。

分位數圖:分位數圖是一種觀察單變數資料分布的簡單有效方法。分位數fi = (i - 0.5)/n, i從1,2,。。。n。

分位數-分位數圖(q-q圖)、直方圖、散點圖等。相似性和相異性都稱為鄰近性,資料矩陣(用於存放資料物件)和相異性矩陣(用於存放資料物件的相異性值)。資料矩陣或稱為物件-屬性結構,這種資料結構用關係表的形式或n x p(n個物件 x p個屬性)矩陣存放n個數物件。相異性矩陣或稱物件-物件結構,存放兩兩之間的鄰近度,通常用乙個n x n矩陣表示。

資料探勘 認識資料

越來越多的人認識到,資料對這個世界的影響越來越大,掌握資料就掌握了發言權。如何從資料中找到想要的知識,是得到資料之後最需要關心的。資料探勘,也是知識發現的過程。1 理解資料 現實世界中,各行各業每時每刻都在產生數量龐大的資料集,讓人眼花繚亂,應該怎樣理解和處理資料呢?資料集由資料物件組成,乙個資料物...

從整體上認識資料探勘

資料收集和資料儲存技術的快速進步,使得積累海量資料已成為家常便飯。然而,提取有用的資訊也成為巨大的挑戰。通常,由於資料量太大,無法使用傳統的資料處理工具和技術處理它。資料探勘 技術由此產生,資料探勘技術,它將傳統的資料分析方法與處理大量資料的複雜演算法相結合,從而實現處理大量資料的目的。資料探勘是在...

《資料探勘》學習筆記 認識資料 2

一 資料的基本統計描述 資料的基本統計描述是為了從資料的統計結果中了解資料的大體特徵,方便對資料進行分類 梳理。其中統計的主要內容包括中心趨勢度量 資料散布度量。其中中心趨勢度量主要討論的內容有均值 中位數 眾數和中列數 資料散布度量主要的內容是資料的極差 四分位數 四分位極差 五數概括 和盒圖。二...