降維:降低維度
維數: 巢狀的維數
降維是二維陣列
降低特徵的個數
正是因為進行訓練的時候,我們都是使用特徵學習。如果特徵學習本身存在問題或者特徵之間關聯性比較強,對於演算法學習**會影響很大
降維的方法
特徵選擇
主成分分析
特徵選擇
資料中包含冗餘或相關變數(或稱特徵,屬性,指標)旨在從原有特徵中找出主要特徵
filter過濾式
embeded過濾式
過濾式還有 方差選擇法 相關係數
方差小, 說明資料比較集中 所以方差低的就過濾
相關係數: 衡量特徵與特徵之間相關程度
嵌入式決策樹
正則化深度學習
模組
sklearn.feature_selection
低方差特徵過濾
這個threshold是閾值,低於這個自動刪除
相關係數
表示特徵與特徵之間的相關係數
皮爾遜相關係數
假如我們來計算一下廣告費與月均銷售的相關性
最後根據求得這個係數進行判斷
取值為-1到1
這個是負相關,相關係數為-0.004說明相關性很小了
特徵與特徵相關性比較很高怎麼辦
1)任意選取乙個
2)按一定權重進行加權
3)主成分分析
機器學習複習
1.判斷與名稱解釋題 a1.1 資料探勘 在較大資料集上通過某些方式發現模型的乙個過程 1.2 機器學習 研究如何通過計算手段,利用經驗提公升系統的效能 1.3 假設空間 對於資料集a,其data對應的特徵為乙個向量,此向量所在的空間稱為假設空間 1.4 奧卡姆剃刀 若有多個假設與觀測一致,則選擇最...
機器學習複習 Apriori
apriori apriori 是關聯分析中比較早的一種方法,主要用來挖掘那些頻繁項集合。其思想是 1.如果乙個專案集合不是頻繁集合,那麼任何包含它的專案集合也一定不是頻繁集合 2.如果乙個專案集合是頻繁集合,那麼它的任何非空子集也是頻繁集合 aprioir 需要掃瞄專案表多遍,從乙個專案開始掃瞄,...
機器學習lr複習點
lr主要推導 損失函式 為何不用最小二乘法 是否要用最小二乘法取決於在所有未知數中的殘差是否為線性 最大似然 將概率密度估計問題轉化為引數估計問題,極大似然估計就是一種引數估計方法 隨機梯度下降 批量梯度下降是所有的 是在權值更新前對所有樣例彙總誤差,而隨機梯度下降的權值是通過考查某個訓練樣例來更新...