機器學習模型
1.線性回歸
本質上它是一系列特徵的線性組合,在二維空間中,你可以把它視作一條直線,在三維空間中可以視作是乙個平面。
為了獲得w和b我們需要制定一定的策略,而這個策略在機器學習的領域中,往往描述為真實值與回歸值的偏差。
優化方法:
思路是線性代數中的矩陣求導
任務變成了求這個 公式的數學問題。
梯度下降:梯度方向就是增長最快的方向,如果我們想要函式值減小,只需要沿著負梯度方向走就行了。具體求這個grad的方法就是,對loss求偏導就可以啦。
2.決策樹(decision tree)是一種基本的分類與回歸方法,當決策樹用於分類時稱為分類樹,用於回歸時稱為回歸樹。
決策樹由結點和有向邊組成。結點有兩種型別:內部結點和葉結點,其中內部結點表示乙個特徵或屬性,葉結點表示乙個類。一般的,一棵決策樹包含乙個根結點、若干個內部結點和若干個葉結點。葉結點對應於決策結果,其他每個結點則對應於乙個屬性測試。每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中,根結點包含樣本全集,從根結點到每個葉結點的路徑對應了乙個判定測試序列。在下圖中,圓和方框分別表示內部結點和葉結點。決策樹學習的目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。
決策樹學習本質上是從訓練資料集中歸納出一組分類規則。與訓練資料集不相矛盾的決策樹(即能對訓練資料進行正確分類的決策樹)可能有多個,也可能乙個也沒有。我們需要的是乙個與訓練資料矛盾較小的決策樹,同時具有很好的泛化能力。從另乙個角度看,決策樹學習是由訓練資料集估計條件概率模型。基於特徵空間劃分的類的條件概率模型有無窮多個,我們選擇的條件概率模型應該不僅對訓練資料有很好的擬合,而且對未知資料有很好的**。
3.gbdt模型
是乙個整合模型,是很多cart樹的線性相加。
模型調參:
1.貪心演算法:
基本思路:
建立數學模型來描述問題
把求解的問題分成若干個子問題
對每個子問題求解,得到子問題的區域性最優解
把子問題的解區域性最優解合成原來問題的乙個解
問題:不能保證求得的最後解是最佳的
不能用來求最大值或最小值的問題
只能求滿足某些約束條件的可行解的範圍
2.grid search 網格搜尋
gridsearchcv:一種調參的方法,當你演算法模型效果不是很好時,可以通過該方法來調整引數,通過迴圈遍歷,嘗試每一種引數組合,返回最好的得分值的引數組合
問題:評分值會比實際效果要好
解決方法:
我們可以通過把資料集劃分三份,乙份是訓練集(訓練資料),乙份是驗證集(調整引數),乙份是測試集(測試模型)。
3.貝葉斯優化方法
貝葉斯優化通過基於目標函式的過去評估結果建立替代函式(概率模型),來找到最小化目標函式的值。貝葉斯方法與隨機或網格搜尋的不同之處在於,它在嘗試下一組超引數時,會參考之前的評估結果,因此可以省去很多無用功。
問題:目標函式:我們想要最小化的內容,在這裡,目標函式是機器學習模型使用該組超引數在驗證集上的損失。
域空間:要搜尋的超引數的取值範圍
優化演算法:構造替代函式並選擇下乙個超引數值進行評估的方法。
結果歷史記錄:來自目標函式評估的儲存結果,包括超引數和驗證集上的損失。
Task4 建模調參
task4 建模調參 學習材料位址 4.4.1 讀取資料 reduce mem usage函式沒看懂 4.4.2 對標籤進行log x 1 變換,使標籤由原來的長尾分布貼近於正態分佈 選用靠前時間的4 5樣本當作訓練集,靠後時間的1 5當作驗證集 l1正則化與l2正則化的區別 l2正則化在擬合過程中...
Task 4 建模與調參
在零基礎入門資料探勘的 task4 建模調參部分,我學習了各種模型以及模型的評價和調參策略。在做好前期的準備工作之後,建模是至關重要的一環,需要根據資料的特點擊擇合適的模型,同時調參使得模型的效果更好。了解常用的機器學習模型,並掌握機器學習模型的建模與調參流程 完成相應學習打卡任務 線性回歸模型 線...
零基礎入門資料探勘 Task4 建模調參
一 介紹 1 線性回歸模型 線性回歸對於特徵的要求 處理長尾分布 理解線性回歸模型 2 模型效能驗證 評價函式與目標函式 交叉驗證方法 針對事件序列問題的驗證 繪製學習率曲線 繪製驗證曲線 3 嵌入式特徵選擇 lasso回歸 ridge回歸 決策樹4 模型對比 常用線性模型 常用非線性模型 5 模型...