5. 演算法優化
1.scent classification by k nearest neighbors using ion-mobility spectrometry measurements
• k最近領近演算法將氣味及其化學成分分類。
• 僅使用離子遷移譜測量法對氣味/化學物質進行分類。
• 使用k維樹搜尋的分類大約快8倍。 (降低運算成本和演算法複雜度)
•通過主成分分析,忽略了71–86%的特徵進行分類。
d e(
xus,
xi)=
∑j=1
14(xi
j−xj
(us)
)2d_e(x^,x_i)=\sqrt^-x_j^)^2}}
de(xu
s,xi
)=j
=1∑1
4(x
ij−
xj(u
s))
2xus為14維的ims樣本資料,xus=[x1
(us)…x14
(us)]
xi為訓練集中的n個ims樣本,xi=[xi,1,…xi,14],i=1,…n
選擇與樣本xus最鄰近的k個同類樣本作為其標籤
作者使用固定的k值 →
\rightarrow
→資料平滑→
\rightarrow
→歸一化
其中xij(t)([i=1,2…n, j=1,2…14])為ims測量值,w是滑動ma的視窗長度
為歸一化值,x~i
j\tilde_
x~ij
為平滑後的測量值,u
ju_j
uj為均值,σ
j\sigma_j
σj為標準差
③ķ維樹(ķ -d樹又名多維二叉搜尋樹)目的
降低資料維度,減少計算成本
篩選有用的特徵,避免被雜訊干擾
具體步驟
① 使用pca對離線訓練集進行變換
得到14通道的經驗均值
和包含主成分係數的14×14矩陣c
② 對乙個未知新標準化ims取樣樣本進行14維的pca變換
其中xˉu
s\bar^
xˉus
為歸一化值,y(u
s)y^(us)
y(us
)為pca變換後值。
無需對訓練集進行重新訓練即可新增新的訓練樣本
③ 對pca-變換資料進行分類(使用knn)
計算新樣本y(u
s)y^(us)
y(us
)與第i
ii個經過pca轉換的訓練樣本yi之間的歐幾里得距離。
使用資料處理函式
用於處理文字串 如刪除或 填充值,轉換值為大寫或小寫 的文字函式 用於在數值資料上進行算術操作 如返回絕對值,進行代數運算 的數值函式 用於處理日期和時間值並從這些值中提取特定成分 例如,返回兩個日期之差,檢查日期有效性等 的日期和時間函式 返回dbms正使用的特殊資訊 如返回使用者登入資訊,檢查版...
基於pandas的excel資料處理
實現目的 將實驗資料 excel格式 根據date列中資料按照年份劃分成多個資料集並輸出。使用pandas讀取excel檔案未dataframe格式,然後獲取其中date列的資料並進行取最後四位數的操作,迴圈結果所需要的資料集進行判斷 with open filename,r encoding ut...
演算法之海量資料處理
1.雜湊 分治 尋找共同的url 給定兩個a和b檔案,各存放50億個url,每個url佔64位元組,記憶體限制4gb,請找出a和b檔案中共同的url。乙個檔案的記憶體 5 000 000 000 64 320gb,每個檔案可以分為100個小檔案,每個檔案大約是3.2gb。1000萬個字串去重 假設每...