Task4 模型和調參

機器學習模型

1.線性回歸

本質上它是一系列特徵的線性組合，在二維空間中，你可以把它視作一條直線，在三維空間中可以視作是乙個平面。

為了獲得w和b我們需要制定一定的策略，而這個策略在機器學習的領域中，往往描述為真實值與回歸值的偏差。

優化方法：

思路是線性代數中的矩陣求導

任務變成了求這個公式的數學問題。

梯度下降：梯度方向就是增長最快的方向，如果我們想要函式值減小，只需要沿著負梯度方向走就行了。具體求這個grad的方法就是，對loss求偏導就可以啦。

2.決策樹（decision tree）是一種基本的分類與回歸方法，當決策樹用於分類時稱為分類樹，用於回歸時稱為回歸樹。

決策樹由結點和有向邊組成。結點有兩種型別：內部結點和葉結點，其中內部結點表示乙個特徵或屬性，葉結點表示乙個類。一般的，一棵決策樹包含乙個根結點、若干個內部結點和若干個葉結點。葉結點對應於決策結果，其他每個結點則對應於乙個屬性測試。每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中，根結點包含樣本全集，從根結點到每個葉結點的路徑對應了乙個判定測試序列。在下圖中，圓和方框分別表示內部結點和葉結點。決策樹學習的目的是為了產生一棵泛化能力強，即處理未見示例能力強的決策樹。

決策樹學習本質上是從訓練資料集中歸納出一組分類規則。與訓練資料集不相矛盾的決策樹（即能對訓練資料進行正確分類的決策樹）可能有多個，也可能乙個也沒有。我們需要的是乙個與訓練資料矛盾較小的決策樹，同時具有很好的泛化能力。從另乙個角度看，決策樹學習是由訓練資料集估計條件概率模型。基於特徵空間劃分的類的條件概率模型有無窮多個，我們選擇的條件概率模型應該不僅對訓練資料有很好的擬合，而且對未知資料有很好的**。

3.gbdt模型

是乙個整合模型，是很多cart樹的線性相加。

模型調參：

1.貪心演算法：

基本思路：

建立數學模型來描述問題

把求解的問題分成若干個子問題

對每個子問題求解，得到子問題的區域性最優解

把子問題的解區域性最優解合成原來問題的乙個解

問題：不能保證求得的最後解是最佳的

不能用來求最大值或最小值的問題

只能求滿足某些約束條件的可行解的範圍

2.grid search 網格搜尋

gridsearchcv：一種調參的方法，當你演算法模型效果不是很好時，可以通過該方法來調整引數，通過迴圈遍歷，嘗試每一種引數組合，返回最好的得分值的引數組合

問題：評分值會比實際效果要好

解決方法：

我們可以通過把資料集劃分三份，乙份是訓練集（訓練資料），乙份是驗證集（調整引數），乙份是測試集（測試模型）。

3.貝葉斯優化方法

貝葉斯優化通過基於目標函式的過去評估結果建立替代函式（概率模型），來找到最小化目標函式的值。貝葉斯方法與隨機或網格搜尋的不同之處在於，它在嘗試下一組超引數時，會參考之前的評估結果，因此可以省去很多無用功。

問題：目標函式：我們想要最小化的內容，在這裡，目標函式是機器學習模型使用該組超引數在驗證集上的損失。

域空間：要搜尋的超引數的取值範圍

優化演算法：構造替代函式並選擇下乙個超引數值進行評估的方法。

結果歷史記錄：來自目標函式評估的儲存結果，包括超引數和驗證集上的損失。

Task4 模型和調參

Task4 建模調參

Task 4 建模與調參

零基礎入門資料探勘 Task4 建模調參

Task4 模型和調參

Task4 建模調參

Task 4 建模與調參

零基礎入門資料探勘 Task4 建模調參

相關推薦