最近編寫了fisher判別的相關**時,需要與已有軟體比照結果以確定自己**的正確性,於是找到了安裝方便且免費的r。這裡把r中進行fisher判別的方法記錄下來。
不嚴謹但是通俗的說法,判別分析(discriminant analysis)是一種多元(多個變數)統計分析方法,它根據樣本的多個已知變數的值對樣本進行分類的方法。一般來說,判別分析由兩個階段構成——學習(訓練)和判別。在學習階段,給定一批已經被分類好的樣本,根據它們的分類情況和樣本的多個變數的值來學習(訓練)得到一種判別方法;在判別階段用前一階段得到的判別方法對其他樣本進行判別。
fisher判別(fisher discrimination method)又被稱為線性判別(lda,linear discriminative analysis),是判別分析的一種,歷史可以追溯到2023年。它的核心思想是將多維資料(多個變數)投影(使用線性運算)到一維(單一變數)上,然後通過給定閾值將樣本根據投影後的單一變數進行分類。
fisher判別的學習(訓練)階段,就是找到合適的投影方式,使得對於已經被分類好的樣本,同一類的樣本被投影後盡量扎堆。具體的方法有一點點兒繁瑣,有興趣可以參考這裡。學習階段的結果是找到一系列的係數(coeffcient),構成形如
y=a1 * x1 + a2 * x2 + a3 * x3 + ... + an *xn其中:a1,a2,... an是係數,x1,x2,... ,xn是變數值。
的判別式和閾值。而判別階段可以根據這個判別式計算出y,並根據閾值將樣本進行分類。
r中使用fisher判別說起來很簡單,但是我當初也放狗搜尋了不短的時間才搞明白如何使用。
首先,它在r裡不叫fisher,用fisher搜尋多半誤入歧途。在r中,它叫lda(linear discriminative analysis)。
其次,它存在於乙個叫mass的包裡。在ubuntu 13.10中使用:
sudo apt-get install r-base
這樣安裝以後預設就有,然後使用下面語句引用這個包:
> library(mass)
再次,引用了mass包以後就可以使用lda命令了:
> params <- lda(y~x1+x2+x3, data=d)
其中,第乙個引數是判別式的形式,第二個引數是用來訓練的樣本資料。lda命令執行後,會輸出構成判別式的各個係數。
最後,使用predict命令對未分類的樣本進行判別。
> predict(params, newdata)
其中,第乙個引數是上一階段lda命令的結果,第二個引數是用來分類的樣本資料。自此,整個fisher判別過程完成。
3.1 資料
準備好兩個csv檔案,用來訓練的已分類資料叫learn.csv,用來判別的未分類資料叫infer.csv。learn.csv共有六列構成,其第一行分別為band1,band2,band3,band4, band5, class,分別代表變數1、變數2、變數3和類別。infer.csv由六列構成:band1, band2, band3, band4, band5。同樣第一列包含列名。csv檔案的字段間都用逗號分隔。
3.2 操作步驟
1. 讀取learn.csv
> d <- read.csv("~/data/learn.csv
")> d2 <- read.csv("~/data/infer.csv")
2. 訓練
> lda(class ~ band1+band2+band3+band4+band5, data=d)
訓練結果:
> paramscall:
lda(class ~ band1 + band2 + band3 + band4 + band5, data =data)
prior probabilities of groups:
010.4220068
0.5779932
group means:
band1 band2 band3 band4 band5
0318.3189
0.0000000
0.0000000
0.00000
0.00000
1322.1881 -0.7703634 -0.2642972
33.92608
36.39715
coefficients of linear discriminants:
ld1band1
0.02173212
band2 -0.08647688
band3 -0.01199366
band4
0.10619769
band5
0.10560976
3. 判別
> ret <- predict(params, d2)
輸出結果:
> write.csv(d2, file="~/data/output.csv
"
打完收工!
R語言中的引號
aa this is an example.1 this is an example.bb this is an example.1 this is an example.identical aa,bb 1 true anne s home 1 anne s home anne s home 1 a...
R語言中建模技術
基於觀測值之間距離的方法,就是k近鄰方法,它基於的假設是 同一型別的樣本有類似的特徵表達值。k近鄰演算法實際上沒有從訓練資料得到乙個模型,只是儲存了這個訓練集資料,在給定測試樣本時,在儲存的訓練集中尋找類似的樣本作為 值,選擇k個最為相似的訓練集樣本用來給定測試樣本的 值。因為 值是採用投票的方法決...
R語言中cut函式
cut函式把連續變數分割為類別 要將連續型變數變成離散型因子,需要對連續型變數進行切割,每個區間可成為乙個因子。可以用cut函式完成連續型變數的切割工作。函式cut 能夠把數值變數切成不同的塊,然後返回乙個因子,對數值資料進行分組 使用cut函式對數值資料進行分組 cut x,breaks,labe...