金融資料 建模與調參

2021-10-09 18:12:05 字數 1976 閱讀 3100

引數調整

logistic regression 雖然被稱為回歸,但其實際上是分類模型,並常用於二分類。logistic regression 因其簡單、可並行化、可解釋強深受工業界喜愛。

logistic 回歸的本質是:假設資料服從這個分布,然後使用極大似然估計做引數的估計。

logistic 分布是由其位置和尺度引數定義的連續分布。logistic 分布的形狀與正態分佈的形狀相似,但是 logistic 分布的尾部更長,所以我們可以使用 logistic 分布來建模比正態分佈具有更長尾部和更高波峰的資料分布。在深度學習中常用到的 sigmoid 函式就是 logistic 的分布函式在 [公式] 的特殊形式。

bagging演算法 (英語:bootstrap aggregating,引導聚集演算法),又稱裝袋演算法,是機器學習領域的一種團體學習演算法。最初由leo breiman於2023年提出。bagging演算法可與其他分類、回歸演算法結合,提高其準確率、穩定性的同時,通過降低結果的方差,避免過擬合的發生。

基本流程:

1.給定乙個弱學習演算法,和乙個訓練集;

2.單個弱學習演算法準確率不高;

3.將該學習演算法使用多次,得出**函式序列,進行投票;

4.最後結果準確率將得到提高.

提公升方法(boosting),是一種可以用來減小監督式學習中偏差的機器學習演算法。面對的問題是邁可·肯斯(michael kearns)提出的:一組「弱學習者」的集合能否生成乙個「強學習者」?弱學習者一般是指乙個分類器,它的結果只比隨機分類好一點點;強學習者指分類器的結果非常接近真值。

大多數提公升演算法包括由迭代使用弱學習分類器組成,並將其結果加入乙個最終的成強學習分類器。加入的過程中,通常根據它們的分類準確率給予不同的權重。加和弱學習者之後,資料通常會被重新加權,來強化對之前分類錯誤資料點的分類。

乙個經典的提公升演算法例子是adaboost。一些最近的例子包括lpboost、totalboost、brownboost、madaboost及logitboost。許多提公升方法可以在anyboost框架下解釋為在函式空間利用乙個凸的誤差函式作梯度下降。

gbdt也是整合學習boosting家族的成員,但是卻和傳統的adaboost有很大的不同。回顧下adaboost,我們是利用前一輪迭代弱學習器的誤差率來更新訓練集的權重,這樣一輪輪的迭代下去。gbdt也是迭代,使用了前向分布演算法,但是弱學習器限定了只能使用cart回歸樹模型,同時迭代思路和adaboost也有所不同。

在gbdt的迭代中,假設我們前一輪迭代得到的強學習器是ft−1(x)ft−1(x), 損失函式是l(y,ft−1(x))l(y,ft−1(x)), 我們本輪迭代的目標是找到乙個cart回歸樹模型的弱學習器ht(x)ht(x),讓本輪的損失函式l(y,ft(x)=l(y,ft−1(x)+ht(x))l(y,ft(x)=l(y,ft−1(x)+ht(x))最小。也就是說,本輪迭代找到決策樹,要讓樣本的損失盡量變得更小。

gbdt的思想可以用乙個通俗的例子解釋,假如有個人30歲,我們首先用20歲去擬合,發現損失有10歲,這時我們用6歲去擬合剩下的損失,發現差距還有4歲,第三輪我們用3歲擬合剩下的差距,差距就只有一歲了。如果我們的迭代輪數還沒有完,可以繼續迭代下面,每一輪迭代,擬合的歲數誤差都會減小。

網格搜尋(grid search)是一種通過嘗試所有超引數的組合來定址合適一組超引數配置的方法。假設總共有 個超引數,第 個超引數可以取 個值。那總共配置組合為 ,如果超引數是連續的,可以將超引數離散化,選擇幾個「經驗值」,比如學習率 可設定 ,對於連續的超引數,我們不能按等間隔的方式進行離散化,需要根據超引數自身的特點進行離散化。網格搜尋根據這些超引數的不同組合方式分別訓練乙個模型,然後測試這些模型在開發集上的效能,選取一組效能最好的配置。

如果不同超引數對模型效能的影響有很大差異。有些超引數(比如正則化係數)對模型效能的影響有限,而有些超引數(比如學習率)對模型效能影響比較大。在這種情況下,採用網格搜尋會在不重要的超引數上進行不必要的嘗試。那麼就更適合另一種搜尋方式:隨機搜尋,對超引數進行隨機組合,然後選擇乙個效能最好的配置。

原文:

資料探勘 建模調參

線性回歸,模型決策樹模型 gbdt模型,xgboost模型 lightgbm模型 簡單的線性回歸,可以用sklearn from sklearn.linear model import linearregression model linearregression normalize true mo...

Task 4 建模與調參

在零基礎入門資料探勘的 task4 建模調參部分,我學習了各種模型以及模型的評價和調參策略。在做好前期的準備工作之後,建模是至關重要的一環,需要根據資料的特點擊擇合適的模型,同時調參使得模型的效果更好。了解常用的機器學習模型,並掌握機器學習模型的建模與調參流程 完成相應學習打卡任務 線性回歸模型 線...

資料探勘實戰之金融風控第四課 建模與調參

一 常用演算法及優缺點介紹 邏輯回歸優點 簡單易理解,模型的可解釋性非常好,從特徵的權重可以看到不同的特徵對最後結果的影響 缺點 不能用logistic回歸去解決非線性問題,因為logistic的決策面是線性的 決策樹優點 簡單直觀,生成的決策樹可以視覺化展示,資料不需要預處理,不需要歸一化,不需要...