精通機器學習 基於R(二)

2021-08-25 08:36:34 字數 1060 閱讀 3110

第二章 線性回歸:機器學習基礎技術

2.1單變數回歸

線性回歸必須通過假設檢驗,總結如下:

1)線性:**變數與響應變數之間的關係是線性的。如果不是線性的要進行資料轉換(對數轉換、多項式轉換、指數轉換等)。

2)誤差不相關:在時間序列和面板資料中,en=betan-1是乙個常見的問題。

3)同方差性:誤差是正態分佈的,並具有相同的方差。即對於不同的輸入值,誤差的方差是乙個固定值。

5)存在異常值:異常值會嚴重影響引數估計。理想情況下,必須在使用線性回歸擬合模型之前就除去異常值。

2.2多變數線性回歸

2.2.1業務理解

2.2.2資料理解和資料準備

2.2.3模型構建和模型評價

特徵選擇這裡介紹最優子集回歸和逐步回歸方法。

前向逐步選擇從乙個零特徵模型開始,然後每次新增乙個特徵,直到所有特徵新增完畢。在這個過程中,被新增的選定特徵建立的模型具有最小的rss。所以理論上,第乙個選定的特徵應該能最好解釋響應變數,依此類推。

後向逐步回歸從乙個包含所有特徵的模型開始,每次刪除乙個起最小作用的特徵。

最優子集回歸是逐步回歸乙個可接受的替代方案。該演算法使用所有可能的特徵組合來擬合模型,所以如果有三個特徵,將生成七個模型。然後和逐步回歸一樣,分析者需要應用自己的判斷和統計分析來選擇最優的模型。當特徵數目非常多時,工作量非常大。

4種用於特徵選擇的統計方法:赤池資訊量準則,馬洛斯的cp,貝葉斯資訊量準則和修正r方。目標都是建立乙個盡可能簡約的模型,即對模型複雜度進行「懲罰」。

為了研究共線性問題,引入方差膨脹因子(vif)。vif是乙個比率,分子為使用全部特徵擬合模型時該特徵的係數的方差,分母為僅使用該特徵擬合模型時這個特徵的係數的方差。vif最小值是1,大於5一般認為是存在嚴重的共線性。

交叉驗證

留一法交叉驗證(loocv):檢測**誤差平方和。

2.3線性模型中的其他問題

2.3.1定性特徵

如果我們有乙個具有兩個水平的特徵,比如性別,可以建立乙個指標,或稱「虛擬特徵」。任意地將乙個水平設為1,另乙個水平設為0。如果特徵的水平多於兩個,可以建立n-1個指標。

2.3.2互動項

機器學習演算法 基於R語言的多元線性回歸分析

多元線性回歸的適用條件 1 自變數對應變數的變化具有顯著影響 2 自變數與應變數間的線性相關必須是真實的,而非形式上的 3 自變數之間需有一定的互斥性 4 應具有完整的統計資料 訓練資料 csv格式,含有19維特徵 步驟一 資料讀取及預處理 從vt.csv檔案中讀取訓練資料,從 rm list ls...

基於機器學習的惡意軟體檢測(二)

乙個有效的,強大的和可擴充套件的惡意軟體識別模組是每個網路安全產品的關鍵組成部分。基於預執行和執行後兩階段收集的資料,惡意軟體識別模組來決定乙個物件是否是乙個威脅。預執行階段的資料 乙個檔案在執行前可獲得所有資料。這可以包括可執行檔案格式描述 描述 二進位制資料統計 通過 提取文字字串和資訊機其他相...

機器學習從入門到精通(緒論)

機器學習致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能,在計算機系統中,經驗 通常以 資料 形式存在,因此,機器學習所研究的主要內容,是關於計算機上從資料中產生 模型 的演算法,即 學習演算法 有了學習演算法,我們把經驗資料提供給它,它就能基於這些資料產生模型,在面對新的情況時,模型會給...