1 場景解析: a.資料探查(資料量的大小,資料缺失或亂碼,etl 操作,字段型別,是否含有目標佇列)
b.場景抽象(是通過已有的資料,挖掘出可以應用的業務場景。機器學習主要用來解決的場景包括二分類、多分類、聚類和回歸)
c.演算法選擇(是確定演算法範圍、多演算法嘗試和多視角分析尋找最適合自身業務的演算法)
2 資料預處理:取樣、去噪、歸一化(0,1)和資料過濾,把資料探勘看成做一道菜的話,資料預處 理就是選擇和清洗蔬菜的過程,這一步沒做好會影響整個菜品的口感.
3.特徵工程:是特徵抽象(將源資料抽象成演算法可以理解的資料)、特徵重要性評估、特徵衍生(特徵衍生的方法來挖掘更有價值的特)和特徵降維幾個方面(主成分分析。pca 通過線性對映投影的方法,把高維的資料對映到了低維的空間中,線性判別式分析lda)
時間戳,二值類問題,多值有序類問題,多值無序類問題(資訊閹割),多值無序類問題(one-hot 編碼),文字型別,影象或語音資料(先將影象或者語音轉化成矩 陣結構).
4.模型搭建,評估,調優
5.結果輸出和分析
常規演算法
deep learing
反向傳播演算法又稱bp 演算法(backpropagation algorithm),是一種監督學習演算法 演算法的核心思想是求導的鏈式法則。bp 演算法常被用來求解神經網路中的最優化問題,跟 淺層演算法的最優化求解不同的地方是bp 演算法可以用鏈式法則對每一層迭代計算梯度.
自動編碼(autoencoder)的核心思想就是通過訓練生成乙個函式f,使f(x)約等於x, 也就是得到乙個函式使輸入和輸出盡可能相等.
對機器學習演算法和深度學習常見結構有系統學習。常見演算法如下:
機器學習演算法:
分類演算法:knn,nb,lr,rf,svm等
聚類演算法:k-means,dbscan
回歸演算法:線性回歸
關係圖演算法:標籤傳播,最短路徑
常用的降維方法:確保向量間的獨立性,減少關聯 減少計算量 去噪,把對結果沒有意義的或意義較小的字段去掉,減少不必要的干擾。 深度學習常見結構: 深度神經網路dnn 卷積神經網路cnn(卷積,下取樣,全連線),主要對空間資料的處理,輸入層格式統一。 迴圈神經網路rnn,常用來解決時序行為的問題。輸入層格式可以不統一。
機器學習降維方法
特徵降維方法包括 lasso,pca,小波分析,lda,奇異值分解svd,拉普拉斯特徵對映,sparseautoencoder,區域性線性嵌入lle,等距對映isomap,embedding。lasso least absolute shrinkage and selection operator,...
機器學習降維方法
由於我的畢設要用pcanet提取特徵,因此學習一下常見的機器降維方法。1.pca 最大化對映後資料的方差 無監督 2.lda 最小的類內間距,最大的類間間距 有監督 原理推導 3.區域性線性嵌入 lle,非線性 它能夠使降維後的資料較好地保持原有 流形結構 它的思想就是在降維時保持區域性的線性關係。...
機器學習降維方法概括
最近刷題看到特徵降維相關試題,發現自己了解的真是太少啦,只知道最簡單的降維方法,這裡列出了常見的降維方法,有些演算法並沒有詳細推導。特徵降維方法包括 lasso,pca,小波分析,lda,奇異值分解svd,拉普拉斯特徵對映,sparseautoencoder,區域性線性嵌入lle,等距對映isoma...