R 資料探勘 求混合型資料物件距離(一)

2021-09-19 20:47:25 字數 1572 閱讀 8354

海林老師《資料探勘》(韓佳煒書)課程作業系列

要求:自己寫r/python**、函式實現一系列演算法

其他參見:

r-資料探勘-求混合型資料物件距離(一)

r-資料探勘-主成分分析pca(二)

r-資料探勘-關聯規則(三)

r-資料探勘-決策樹id3(四)

r-資料探勘-貝葉斯分類(五)

r-資料探勘-聚類kmeans(六)

r-資料探勘-聚類dbscan(七)

分析

演算法/函式

測試資料

測試**

測試結果(截圖)

分析:##輸入資料要求:資料缺失值處理為na,

######輸入每列資料型別(向量;數值型,標稱型,序數型),

######序數型資料已經轉換為排位,

##不區分對稱二元和非對稱二元==>歸為標稱型

#輸入:資料框,每列資料型別

#返回:物件間的距離矩陣

mydis

#對標稱型資料求距離

d_bc_ij

} d_data

return(result)

}xs_z=z_matrix(data,type)

#判斷兩個物件屬性之間的距離

#定義距離矩陣

my_d=matrix(rep(0,r*r),r,r)

for(i in 1:r)else if(type[k]=="標稱型")else if(type[k]=="序數型")

}else

sumf=sumf+f

}my_d[i,j]=sum(d_k_ij)/sumf}}

return(my_d)

} return(d_data(data,type))

}

測試資料1:書上的測試資料

test1=c("a","b","c","a")

test2=c(3,1,2,3)#優秀、一般、好、優秀

test3=c(45,22,64,28)

testdata=data.frame(test1,test2,test3)

str(testdata)

aaa=mydis(testdata,c("標稱型","序數型","數值型"))

測試資料2:存在缺失值的資料

《R語言資料探勘》 1 3 資料探勘

1.3 資料探勘 資料探勘就是在資料中發現乙個模型,它也稱為探索性資料分析,即從資料中發現有用的 有效的 意想不到的且可以理解的知識。有些目標與其他科學,如統計學 人工智慧 機器學習和模式識別是相同的。在大多數情況下,資料探勘通常被視為乙個演算法問題。聚類 分類 關聯規則學習 異常檢測 回歸和總結都...

R語言資料探勘資料

包含理論知識與rpart包例項。包含演算法的自行實現,以及rweka包的c4.5演算法 tree包的cart演算法。離散選擇模型大師kenneth train的個人主頁,提供了matlab r和gauss的源 個人推薦r 中的rsghb包,採用的估計方法是hierarchical bayes演算法,...

R語言資料探勘之資料探索

資料質量分析是資料預處理的前提,是資料探勘分析結論有效性和準確性的基礎,其主要任務是檢查原始資料中是否存在髒資料,髒資料一般是指不符合要求,以及不能直接進行相應分析的資料。在常見的資料探勘工作中,髒資料主要值缺失值和異常值。本專場重點介紹了缺失值的判斷 缺失值模式探索 缺失值處理及異常值判斷的常用方...