資料探勘的學習,我是參考了《資料探勘概念與技術》韓家煒老師的書籍學習
第一部分 認識資料
1.1 屬性
屬性是乙個資料字段,便是資料物件的乙個特徵。
分類一:
標稱屬性:值是符號或事物的名稱。ex,hair_color,customer_id。對其算數運算無
意義。二元屬性:一種標稱屬性。只有兩個狀態or類別:0,1
序數屬性:值之間具有有意義的序或秩,但相鄰值之間的差未知。ex,快餐店飲料的大,中,小。其有意義的先後次序。
數值屬性:定量的,可度量的量,可算數計算的,用整數或實數值表示,分為區間標度and比率標度。
(1)區間標度屬性:如溫度,不能說乙個溫度值是另乙個的倍數(用比率表達)
(2) 比率標度屬性:屬性具有固定零點的數值屬性。可以說乙個是另乙個的倍數、
分類二:
1.離散屬性:具有有限或無限可數個數,可以用or不用數值表示。如果乙個屬性的可能的值集合是無限的,但是可以建立乙個與自然數的一一對應,則這個屬性是無限可數的,如customer_id.
2.連續屬性:連續屬性一般用浮點變數表示。
1.2 資料的基本統計描述
中心趨勢度量:描述資料分度的中部或中心位置。即給定乙個屬性,他的值大部分落在那
(1)最常用: 均值,加權算數均值(加權平均),截尾均值(去掉高低極值後的均值)
(2)對於非對稱資料,資料中心的更好度量:中位數
(3)眾數:可能的最高頻率對應多個不同值,叫為單峰的,雙峰,三峰的
(4)中列數:資料集中最大和最小值得平均值
注意:對於對稱資料,均值,中位數,眾數於一點;對於正傾斜資料(左傾斜)順序為眾數,中位數,均值;對於負傾斜資料,順序為均值,中位數,眾數
度量資料散布
(1)極差,四分位數,四分位數極差(對於對稱資料好用)
分位數:取自資料分布的每隔一定間隔上的點。2-分位數是乙個資料點對應中位數;4-分位數是3個資料點,將資料分為25%,50%,75%,iqr位四分位數的極差 iqr=q3-q1
(2)五數概括,盒圖與離群點(對於傾斜資料好用)
五點概括:25%點q1,中位數點,75%點q3,最高點,最低點
盒圖:盒的長度為極值iqr(q3-q1),中位數用盒內的線標記,盒外的線延伸 到大小最值
方差和標準差
1.3資料的基本描述的圖形顯示
分位數圖,直方圖,散點圖
1.4 度量資料的相似性和相異性
資料探勘引入 基礎知識
全球每天都在產生數以兆兆的資料,每個人的行為都會產生資料 資料的 式增長並且廣泛可用讓我們真正進入資料時代。普通人面對這資料海洋就是束手無策 一臉懵逼 我是誰?我從哪兒來?我要去哪兒?但是在這資料海洋中有著無與倫比的財富等待著我們去發現。資料探勘 資料探勘是指從大量的資料中通過演算法搜尋隱藏於其中資...
資料探勘的幾個基礎知識
1.為什麼資料探勘是重要的?主要是由於存在可以廣泛使用的大量資料,並且迫切需要將這些資料轉換成有用的資訊和知識,以將其廣泛用於市場分析 欺詐檢測 顧客保有 產品控制和科學探索等。2.資料探勘系統的一般結構 知識發現過程由以下步驟組成 1 資料清理 消除雜訊和不一致資料 2 資料整合 可將多重資料來源...
資料探勘 基礎知識 彙總筆記1
分類 有監督 聚類 無監督 1.k means 連續型,數值型資料,使用歐式距離 余弦距離 大哥 小弟 的例子,無監督學習演算法 形心均值是相加再除即可 對異常值敏感 k medoids 形心均值改為中心點,在每個聚簇中按照順序依次選取點,計算該點到當前聚簇中所有點距離之和,最終距離之和最小的點,則...