零基礎入門資料探勘 Task4 建模調參

2021-10-04 16:45:44 字數 956 閱讀 2354

一、介紹

1、線性回歸模型:

線性回歸對於特徵的要求

處理長尾分布

理解線性回歸模型

2、模型效能驗證:

評價函式與目標函式

交叉驗證方法

針對事件序列問題的驗證

繪製學習率曲線

繪製驗證曲線

3、嵌入式特徵選擇:

lasso回歸

ridge回歸

決策樹4、模型對比

常用線性模型

常用非線性模型

5、模型調參

貪心調參方法

網路調參方法

貝葉斯調參方法

二、相關模型的理解

1、決策樹模型

決策樹(tree nodels)是一種建立樹狀模型的方法,它使用『基尼不純度』(gini impurity)或資訊增益(information gain)等標準對節點進行遞迴分割,以建立樹狀模型。決策樹看起來像是以樹狀形式排列的一系列的if-else語句,易於理解,執行速度快。並且,它能夠很好地表現多個特徵之間的相互作用,適用於多種資料型別。(樹狀模型中,隨機森林效能表現卓越)

資料型別:特徵可以連續和離散。在決策樹演算法中,會對資料特徵不斷判斷,根據反饋逐步對資料進行分類。在決策樹種,對各個節點提出問題,並根據反饋的回答建立子節點,進而實現資料分類的目的。不純度被用作評估資料分離程度的標準,將乙個節點資料劃分為2個子節點時,最好的問題判斷能夠使子節點的不純度降至最低。節點中含有的分類判斷越多,不純度越高。

因變數分類時是離散,回歸時是連續。

2、gbdt模型

梯度提公升樹模型(gbdt)是資料探勘中常見的演算法。它是乙個整合模型,可以看做是很多個基礎模型的線性疊加,其中基模型是cart回歸樹。

cart回歸樹是乙個決策樹模型,與id3、c4.5相比,它的主要特徵是,二分樹,每個節點特徵取值為「是」、「不是」。

這樣,決策樹遞迴劃分每個特徵,並且在輸入控空間的每個劃分單元中確定唯一的輸出。

零基礎入門資料探勘 task3 特徵工程

關於特徵工程學習材料和直播的總結和理解。可以增強資料表達 新增先驗知識。特徵工程一般常常與eda資料分析結合。資料分析和特徵工程有交集,可互為補充。異常處理 特徵歸一化 標準化 資料分桶 缺失值處理 特徵構造 特徵篩選 嵌入式 embedding 結合過濾式和包裹式,學習器訓練過程中自動進行了特徵選...

零基礎入門資料探勘 Task5 模型融合

先產生一組個體學習器,然後利用某種策略將它們結合起來,加強模型效果。周志華和李航老師的書中都證明隨著個體學習器數目的增大,整合的錯誤率將呈指數級下降,最終趨向於零。因此,模型融合被廣泛應用。簡單來說就是通過對一組的基分類器以某種方式進行組合,以提公升模型整體效能的方法。多模型投票 votingcla...

Task02 零基礎入門資料探勘 資料分析

train data pd.read csv path used car train 20200313.csv sep test data pd.read csv path used car testa 20200313.csv sep display train data.shape displa...