資料處理 基於KNN演算法使用IMS對氣味進行分類

2021-10-23 06:23:05 字數 1670 閱讀 8315

5. 演算法優化

1.scent classification by k nearest neighbors using ion-mobility spectrometry measurements

• k最近領近演算法將氣味及其化學成分分類。

• 僅使用離子遷移譜測量法對氣味/化學物質進行分類。

• 使用k維樹搜尋的分類大約快8倍。 (降低運算成本和演算法複雜度)

•通過主成分分析,忽略了71–86%的特徵進行分類。

d e(

xus,

xi)=

∑j=1

14(xi

j−xj

(us)

)2d_e(x^,x_i)=\sqrt^-x_j^)^2}}

de​(xu

s,xi

​)=j

=1∑1

4​(x

ij​−

xj(u

s)​)

2​xus為14維的ims樣本資料,xus=[x1

(us)…x14

(us)]

xi為訓練集中的n個ims樣本,xi=[xi,1,…xi,14],i=1,…n

選擇與樣本xus最鄰近的k個同類樣本作為其標籤

作者使用固定的k值 →

\rightarrow

→資料平滑→

\rightarrow

→歸一化

​ 其中xij(t)([i=1,2…n, j=1,2…14])為ims測量值,w是滑動ma的視窗長度

​為歸一化值,x~i

j\tilde_

x~ij

​為平滑後的測量值,u

ju_j

uj​為均值,σ

j\sigma_j

σj​為標準差

③ķ維樹(ķ -d樹又名多維二叉搜尋樹)目的

降低資料維度,減少計算成本

篩選有用的特徵,避免被雜訊干擾

具體步驟

​ ① 使用pca對離線訓練集進行變換

​ 得到14通道的經驗均值

​ 和包含主成分係數的14×14矩陣c

​ ② 對乙個未知新標準化ims取樣樣本進行14維的pca變換

​ 其中xˉu

s\bar^

xˉus

為歸一化值,y(u

s)y^(us)

y(us

)為pca變換後值。

​ 無需對訓練集進行重新訓練即可新增新的訓練樣本

​ ③ 對pca-變換資料進行分類(使用knn)

​ 計算新樣本y(u

s)y^(us)

y(us

)與第i

ii個經過pca轉換的訓練樣本yi之間的歐幾里得距離。

使用資料處理函式

用於處理文字串 如刪除或 填充值,轉換值為大寫或小寫 的文字函式 用於在數值資料上進行算術操作 如返回絕對值,進行代數運算 的數值函式 用於處理日期和時間值並從這些值中提取特定成分 例如,返回兩個日期之差,檢查日期有效性等 的日期和時間函式 返回dbms正使用的特殊資訊 如返回使用者登入資訊,檢查版...

基於pandas的excel資料處理

實現目的 將實驗資料 excel格式 根據date列中資料按照年份劃分成多個資料集並輸出。使用pandas讀取excel檔案未dataframe格式,然後獲取其中date列的資料並進行取最後四位數的操作,迴圈結果所需要的資料集進行判斷 with open filename,r encoding ut...

演算法之海量資料處理

1.雜湊 分治 尋找共同的url 給定兩個a和b檔案,各存放50億個url,每個url佔64位元組,記憶體限制4gb,請找出a和b檔案中共同的url。乙個檔案的記憶體 5 000 000 000 64 320gb,每個檔案可以分為100個小檔案,每個檔案大約是3.2gb。1000萬個字串去重 假設每...