R語言中建模技術

2021-08-19 14:12:36 字數 483 閱讀 2807

基於觀測值之間距離的方法,就是k近鄰方法,它基於的假設是:同一型別的樣本有類似的特徵表達值。k近鄰演算法實際上沒有從訓練資料得到乙個模型,只是儲存了這個訓練集資料,在給定測試樣本時,在儲存的訓練集中尋找類似的樣本作為**值,選擇k個最為相似的訓練集樣本用來給定測試樣本的**值。因為**值是採用投票的方法決定的,所以k的選值最好是奇數。

太稀疏的資料選擇的k值不要過大。r包class中有實現knn的函式。                 

隨機森林是組合模型的乙個典型應用,每棵樹都是通過自助法抽樣進行訓練的,從原始資料集中有放回的隨機抽取n個樣本,用特徵的乙個隨機子集決定樹的節點,沒有剪枝操作。

支援向量機的基本思想是,將原始資料對映到乙個新的高維空間,在這個高維空間中,有可能應用線性模型獲得乙個超平面來進行分離。也是呼叫e1071包中的svm函式。除了gamma和cost以外,大部分引數都使用預設值,gamma是在核函式中使用的。設定為0.001,cost表示違反邊際所引入的損失,根據資料不同變化。

R語言中的引號

aa this is an example.1 this is an example.bb this is an example.1 this is an example.identical aa,bb 1 true anne s home 1 anne s home anne s home 1 a...

R語言中cut函式

cut函式把連續變數分割為類別 要將連續型變數變成離散型因子,需要對連續型變數進行切割,每個區間可成為乙個因子。可以用cut函式完成連續型變數的切割工作。函式cut 能夠把數值變數切成不同的塊,然後返回乙個因子,對數值資料進行分組 使用cut函式對數值資料進行分組 cut x,breaks,labe...

R語言中的陣列

陣列 不同於矩陣和資料框,維度大於2。r中最簡單的陣列 3維。行,列,面 如下兩行 三列 四面的陣列。dim1 c a1 a2 dim2 c b1 b2 b3 dim3 c c1 c2 c3 c4 dat array 1 24,c 2,3,4 dimnames list dim1,dim2,dim3...