機器學習 day2

2021-09-18 04:21:34 字數 965 閱讀 7758

歸一化:將所有資料轉化到同一標準下,使的某乙個特徵對最終結果不會造成更大的影響。。通過對原始資料進行變換把資料對映到(預設為[0,1]之間)

問題:如果資料中異常點過多,會有什麼影響?

最大值最小值會受影響。

方差考量資料的穩定性。

標準化:將所有資料進行變換到平均值為0,標準差為1之間。

standardscaler語法

例項化呼叫fit_transform(資料)

獲取標準化資料,,不易受異常值影響

數值型資料:

標準縮放:1.歸一化。2.標準化。3.缺失值

缺失值一般採用插補方法(按每行或者每列的平均值、中位數填補)

imputer一般用來填補

降維:維度(特徵的數量)減少

資料降維的方式有兩種:

特徵選擇

主成分分析

特徵選擇:過濾式(variancethreshold)、嵌入式(正則化、決策樹)兩種方法

主成分分析sklearn.decomposition目的:是資料維數壓縮,盡可能降低原資料的維數(複雜度),損失少量資訊。。作用:可以削減回歸分析或者聚類分析中特徵的數量

pca: 特徵數量達到上百個時候,考慮資料的簡化,資料會改變,特徵數量也會減少。

pca(n_components=none)

將資料分解為較低維數空間

sklearn資料集與估計器

分類演算法—k近鄰演算法

k-近鄰演算法例項

分類模型的評估

分類演算法-樸素貝葉斯演算法

樸素貝葉斯演算法例項

模型的選擇與調優

決策樹與隨機森林

機器學習Day2

英文原鏈結源鏈結 假設 x和y是線性相關的 則需要找到乙個關於x的線性函式來盡可能準確的 y。y a0 a1x1 怎樣找到最合適的回歸線?通過最小化 值和觀測值的均方差 導入庫 匯入資料集 檢查缺失資料 分離訓練集和測試集 特徵縮放 從sklearn.linear model中匯入linearreg...

機器學習基礎DAY2

1.定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 2.數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 1 歸一化 特點 通過對原始資料進行變換把資料對映到 預設為 0,1 之間 注 作用於每一列,max為一列的最大值...

機器學習學習筆記 day2

周志華 機器學習 學習筆記 最近開始學習機器學習,參考書籍西瓜書,做點筆記。第二章 模型評估與選擇 錯誤率 分類錯誤的樣本數佔樣本總數的比例,e a m。精度 分類正確的樣本數佔樣本總數的比例,精確度 1 錯誤率。過擬合 訓練樣本學的太好,導致泛化效能下降。欠擬合 訓練樣本學的不太好。測試集與訓練集...