廣義線性模型及其在車險定價中的應用

2021-10-03 01:15:08 字數 1738 閱讀 2034

綜述

廣義線性模型在各大保險公司有著廣泛的應用,其中應用比較成熟的方向應該是車險定價這一塊。接下來,咱們就簡單討論一下什麼是廣義線性模型?為什麼要用廣義線性模型?以及怎麼用廣義線性模型?

(注:全程沒有公式推導,水貨文章老少咸宜)

what?

什麼是廣義線性模型?首先假設大家已經對線性模型有一定的了解,這裡就不詳細展開。那麼「廣義」的區別是什麼,又有什麼異同呢?廣義,顧名思義就是範圍更寬廣的意思,是包含關係。

對於一般形式的線性模型y_hat=ax+b,我們都假設因變數y是服從正態分佈的,而線性模型的極大似然估計的解與最小二乘法中的解是一樣的(詳細的公式就不推導了,網上一搜一大堆),當且僅有這麼一家特例。那麼問題來了,當因變數y不是服從正態分佈的時候,那一般形式的線性模型擬合效果肯定就很差,特別是表現在資料分布的兩端。

這個時候就需要引入廣義線性模型g(y_hat)=ax+b,g()稱作連線函式,廣義線性模型則放寬了因變數y要服從正態分佈的限制,只需服從指數分布族裡的分布就可以。指數分布族是指分布的概率密度函式可以轉化成以下形式:

式中的θ為自然引數,與分布的均值μ有關,φ是離散引數,與分布的均值無關,與方差有關。指數分布族包含了,正態分佈、泊松分布、伽馬分布、二項分布、逆高斯分布、tweedie分布等。

why?

為什麼用廣義線性模型?有不少朋友會問:線性模型有什麼好的?現在機器學習那麼多模型,而線性模型的表達能力有限,一些非線性問題也解決不了,為什麼還用線性模型?

本人結合實際工作總結出以下幾點原因:

how?

這裡分三部分:一是廣義線性模型的求解,二是資料端處理,三是常見問題以及解決方法。

廣義線性模型求解:一般的思路是極大似然估計求極值,正如前面所述只有正態分佈的極大似然估計的解和最小二乘法的解是一樣的,那其他的怎麼辦呢?機器學習中用的比較多的是梯度下降法,只需要把極大似然估計前加負號就行;牛頓法,牛頓法比梯度下降法的收斂速度更快,但有乙個致命的缺點,用到了海森矩陣的逆;迭代加權最小二乘法,牛頓法的改進版本,使用資訊矩陣取代海森矩陣。一般的sas、r等已經封裝好api,呼叫即可。

資料端處理:資料**主要來自兩個表,乙個是保單表、乙個是賠付表;保單表包含了保單資訊,包括起保日期、終保日期以及一些車主資訊、車輛資訊、上年保單資訊等,賠付表包含了出險日期、保單號、賠款金額、是否已決等;通過sql關聯一些其他資訊,大致用於建模的資料形式如下:從人因子、從車因子、索賠次數、索賠金額、車年數等。對於連續型資料的處理,一般會做分桶處理,例如年齡:25以下、25-35、35-50、50-60、60+,具體怎麼分可根據實際需求來定。

常見問題以及解決方法:(1)用何種分布的廣義線性模型取擬合?索賠次數用泊松分布,索賠強度用伽馬分布,或者直接用tweedie分布擬合。(2)過離散是什麼?過離散是指因變數觀測值的方差超過了名義上的方差,主要原因資料量不足、有些互動項沒有加入模型等。(3)資料問題?包括了左截斷,右刪失等,另外還有零膨脹問題、復合分布問題等等。(4)互動項如何去選擇?排列組合想得頭疼,除了一些經濟學的論證外,不妨試試交給電腦吧,先用gbdt或xgb跑一跑,以供參考。

ending

個人的一些思考:隨著人工智慧熱潮的公升起,精算、金融熱逐漸褪去,但是個人認為知識有很大一部分是相連相通的,打好基礎,融匯貫通,學以致用,才是應對未來挑戰的最好方式(理論基礎+工程能力)。另外在網際網路的作用下,資料量呈幾何級數增長,如何合理利用資料,如何合理使用模型,也是保險公司值得思考的。

廣義線性模型

廣義線性模型是線性模型的擴充套件,主要是對非正態因變數的分析 廣義線性擬合的核心是最大似然估計,而不是最小二乘 擬合模型如下 y 0 pj 1 jx j 其中,beta是係數,mu是優勢比的對數,beta係數是對優勢比的影響。通過擬合求得的就是 我們可以通過兩個例子看一下兩種變數 類別型 自變數x ...

廣義線性模型

之前提到過,線性回歸模型有三個限制 響應變數服從正態分佈,響應變數和解釋變數之間服從線性關係,方差不變。其實在構建乙個線性模型的時候,除了上述的兩個要求,我們還需要對解釋變數進行具體的分析,主要有幾點,首先是解釋變數之間的相互作用 interaction 對結果的影響,簡單來說就是模型不僅僅受因素a...

1 1 廣義線性模型

下面介紹的是一組用於回歸的方法,這些方法的目標值是輸入變數的線性組合。用 作為 值。貫穿模組,我們指定向量 為coef 係數 為intercept 截距 要使用廣義線性模型實現分類,詳見logistic回歸。線性回歸擬合以係數 最小化可觀測到的資料的響應與線性模型 的響應的殘差和的平方,用數學公式表...