歸一化:將所有資料轉化到同一標準下,使的某乙個特徵對最終結果不會造成更大的影響。。通過對原始資料進行變換把資料對映到(預設為[0,1]之間)
問題:如果資料中異常點過多,會有什麼影響?
最大值最小值會受影響。
方差考量資料的穩定性。
標準化:將所有資料進行變換到平均值為0,標準差為1之間。
standardscaler語法
例項化呼叫fit_transform(資料)
獲取標準化資料,,不易受異常值影響
數值型資料:
標準縮放:1.歸一化。2.標準化。3.缺失值
缺失值一般採用插補方法(按每行或者每列的平均值、中位數填補)
imputer一般用來填補
降維:維度(特徵的數量)減少
資料降維的方式有兩種:
特徵選擇
主成分分析
特徵選擇:過濾式(variancethreshold)、嵌入式(正則化、決策樹)兩種方法
主成分分析:sklearn.decomposition目的:是資料維數壓縮,盡可能降低原資料的維數(複雜度),損失少量資訊。。作用:可以削減回歸分析或者聚類分析中特徵的數量
pca: 特徵數量達到上百個時候,考慮資料的簡化,資料會改變,特徵數量也會減少。
pca(n_components=none)
將資料分解為較低維數空間
sklearn資料集與估計器
分類演算法—k近鄰演算法
k-近鄰演算法例項
分類模型的評估
分類演算法-樸素貝葉斯演算法
樸素貝葉斯演算法例項
模型的選擇與調優
決策樹與隨機森林
機器學習Day2
英文原鏈結源鏈結 假設 x和y是線性相關的 則需要找到乙個關於x的線性函式來盡可能準確的 y。y a0 a1x1 怎樣找到最合適的回歸線?通過最小化 值和觀測值的均方差 導入庫 匯入資料集 檢查缺失資料 分離訓練集和測試集 特徵縮放 從sklearn.linear model中匯入linearreg...
機器學習基礎DAY2
1.定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 2.數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 1 歸一化 特點 通過對原始資料進行變換把資料對映到 預設為 0,1 之間 注 作用於每一列,max為一列的最大值...
機器學習學習筆記 day2
周志華 機器學習 學習筆記 最近開始學習機器學習,參考書籍西瓜書,做點筆記。第二章 模型評估與選擇 錯誤率 分類錯誤的樣本數佔樣本總數的比例,e a m。精度 分類正確的樣本數佔樣本總數的比例,精確度 1 錯誤率。過擬合 訓練樣本學的太好,導致泛化效能下降。欠擬合 訓練樣本學的不太好。測試集與訓練集...