頻率:
分類屬性的眾數:具有最高頻率的值
第1步:以遞增順序排列原始資料(即從小到大排列)。
第2步:計算指數i=np%
第3步:
l)若 i 不是整數,將 i 向上取整。大於i的毗鄰整數即為第p百分位數的位置。
2) 若i是整數,則第p百分位數是第i項與第(i+l)項資料的平均值。
按照上述的計算公式i=n*p%=10*10%=1,其中n為1到10的整數個數,也就是10,p=10,所以我們得到i=1
i=1是整數,那我們計算p10=(x(i)+x(i+1))/2=(1+2)/2=1.5
剩下的大家可以按照這個公式以此計算了。
均值:就是資料的平均值 中位數:資料最中間的數(但是要從小到大順序排列)
因為均值對於離群值很敏感,有時使用截斷均值。指定0和100間的百分位數p,丟棄高階和低端的(p/2)%的資料,然後計算均值。意思就是說,把前
(p/2)%和後(p/2)%的資料扔掉,計算中間的資料均值 就能避免離群值。
極差:最大值與最小值的差
方差:每個數與平均值的差的均方誤差。用以體現變化程度
因為均值受離群值影響,所以方差也很敏感。
絕對平均偏差 aad ,中位數絕對偏差 mad ,四分位數極差iqr
協方差矩陣:由不同屬性的協方差構成的矩陣
協方差上的對角線,是屬性的方差。即
對於資料探索,相關性矩陣比協方差更可取,表示每兩個屬性的相關性。
表示:將資料對映到圖形元素 即選擇什麼樣的圖
安排:即如何排列資料 呈現更好的效果
選擇:即選擇要視覺化的屬性 是否需要刪除或不突出某些屬性
1、莖葉圖:可以用來觀測一維整形或連續型資料的分布。莖是高位數字,葉是低位數字 如圖
2、直方圖:將莖葉圖用條形圖來表示
3、二維直方圖:將每個屬性劃分成區間,兩個區間集定義值。
4、盒裝圖:盒的上端是第75個百分位數,下端是第25個百分位數,盒中的線是第五十個百分位數的值。
5、餅圖:通常用於相對較少的分類屬性,用面積表示相對頻率。但是在技術上,平方圖更可取。因為相對面積大小很難確定
6、散布圖
用途:1、圖形化地顯示兩個屬性之間的關係。2、當類標號給出時,考察兩個屬性將類分開的程度。
使用散布圖的方法:也可以根據三個屬性而不是兩個屬性來顯示每個物件
1、等高線圖:描述溫度或海拔高度
2、曲面圖:描述數學函式,或變化相對光滑的物理曲面
1、矩陣:儲存影象的亮度和顏色(如果類標號已知,重新排列次序,讓同類的物件聚集在一起,是很有用的方法。如果屬性列值域不同,則要進行標準化,讓均值為0,標準差為1,避免值大的屬性左右圖形)
2、平行座標系:每個屬性乙個座標軸,相互平行,最後用連線連線
缺點:如果線交叉太多,則圖形會變得模糊不清。需要安排座標軸,以得到較少交叉的座標軸序列
3、星型座標和chernoff臉
理解,清晰性,一致性,有效性,必要性,真實性
事實表:
步驟:1、維的識別 2、分析所關注的屬性的識別
資料立方體:計算聚集量 (計算邊緣總和)
維規約和轉軸(減少維度,轉軸:在除兩個維之外的所有維上聚集,即只保留兩個維)
資料探勘導論
20世紀60年代,從檔案處理演化到資料庫系統 20世紀70年代,演化到關聯式資料庫,聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在,研究分布性 多樣性和資料共享等問題,還有基於internet的全球資訊系統 80年代後期到現在,出現的資料庫結構是資料倉儲,可將多個一種資料來源在單個站...
資料探勘導論
誤差平方均值,越小越好 從大家直觀的感受,這三個模型哪個更好?左上?右上?還是左下?右上,因為左下有可能過擬合。最下面的模型過於強調特定點的誤差了。雜訊點也被擬合了。我們用什麼樣的手段,來幫助我們發現過擬合?擬合曲線的引數過多。分訓練集和測試集,設定測試資料用於判斷擬合的情況。泛化誤差 模型在新樣本...
資料探勘導論 (二)
序數 能確定物件的序,即大小關係。例 礦石程度 好,較好,最好 區間 可以進行差值比較。例 日曆日期 比例 除了能進行差值比較還能進行比率比較 例 長度 測量誤差 記錄的值與實際值不同 誤差 測量值 實際值 資料收集錯誤 遺漏資料或者不當地包含了其他資料 雜訊 測量誤差的隨機部分,使值被扭曲或者加入...