特徵選擇的【步驟】,特徵選擇的【方法】
【資訊增益越大,特徵越重要】
relief原理:【能區分開目標的特徵挑出來,區分不開目標的特徵給它去掉】
l1正則化使得w變的【稀疏】,l2正則化【使得w變的比較小】
【l1正則化交點常在座標軸上】,這樣【某個特徵值就會為0】,表示這個特徵沒影響,而【l2正則化的交點常不在座標軸上】,看圖非常好理解做乙個模型,【70%-90%時間】會花在特徵工程上面;【最耗時、最有創造力】的部分;【不同模型】對特徵工程【要求不一樣】;【cnn、dnn對特徵工程要求較低】
201116西瓜書機器學習系列 10 降維
先講乙個 引子 k nearst labor 然後講 降維方法 有 線性和非線性兩種 然後是度量學習 降維方法主要是 線性和非線性兩種 線性的裡面有我們熟知的 主成分分析pca k近鄰學習的原理就是判斷乙個點的正負的時候,找離他最近的點的正負 即可,k 3就是最近的3個樣本 比如從1000維降到10...
201116西瓜書機器學習系列 9 聚類
聚類的效能度量主要分為 外部指標 和 內部指標 聚類的基本想是 簇內相似度高,簇外相似度低 聚類距離計算分為 有序屬性 無序屬性 混合屬性 有序和無序混合 a assign 計算每個點到中心點的距離 根據距離分配類別 b move 根據a步驟中分配的類別,重新計算中心點 k均值聚類這個過程和em演算...
西瓜書 機器學習《一》
泛化能力 學習的模型適應新樣本的能力。奧卡姆剃刀原則 自然科學研究中常用的原則。即 若有多個假設和觀測一致,那麼就選擇最簡單的假設。連線主義 黑箱模型,例如 神經網路,不可解釋性,引數手工等調整 符號主義 決策理論的學習技術,例如決策樹學習 以資訊理論為基礎,以資訊熵的最小化為目標。統計學習 svm...