4 建模調參 用到的度量名詞含義

2021-10-04 14:46:07 字數 2911 閱讀 2675

一、方差

在概率論和統計方差是衡量隨機變數或一組資料時離散程度的度量。概率論中方差用來度量隨機變數和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是各個樣本資料和平均數之差的 平方和 的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。

對於一組隨機變數或者統計資料,其期望值(平均數)用e(x)表示,即隨機變數或統計資料的均值, 然後對各個資料與均值的差的 平方和,如下所示:

最後對平方和再求期望就得到了方差公式,方差的公式如下:

這個公式描述了隨機變數(統計資料)與均值的偏離程度。

二、標準差

標準差是方差的平方根,標準差的公式如下:u表示期望

根號裡的內容就是我們剛提到的方差

那麼問題來了,既然有了方差來描述變數與均值的偏離程度,那又搞出來個標準差幹什麼呢?

原因是方差與我們要處理的資料的量綱是不一致的,雖然能很好的描述資料與均值的偏離程度,但是處理結果是不符合我們的直觀思維的。

舉個例子:乙個班級裡有60個學生,平均成績是70分,標準差是9,方差是81,假設成績服從正態分佈,那麼我們通過方差不能直觀的確定班級學生與均值到底偏離了多少分,通過標準差我們就很直觀的得到學生成績分布在[61,79]範圍的概率為68%,即約等於下圖中的34.2%*2

額外說明:乙個標準差約為 68%(平均值-標準差,平均值+標準差), 兩個標準差約為95%(平均值-2倍標準差,平均值+2倍標準差), 三個標準差約為99%。它反映組內個體間的離散程度。

三、均方差、均方誤差(mse)

標準差(standard deviation),又稱均方差,但不同於均方誤差(mean squared error),均方誤差是各資料偏離真實值差值的平方和 的平均數,也就是誤差平方和的平均數。均方誤差的開方叫均方根誤差,均方根誤差才和標準差形式上接近。

舉個例子:我們要測量房間裡的溫度,很遺憾我們的溫度計精度不高,所以就需要測量5次,得到一組資料[x1,x2,x3,x4,x5], 假設溫度的真實值是x,資料與真實值的誤差為e=x-xi 那麼均方誤差mse=

四、總結

從上面定義我們可以得到以下幾點:

1、均方差就是標準差,標準差就是均方差

2、方差 是各資料偏離平均值 差值的平方和 的平均數

3、均方誤差(mse)是各資料偏離真實值 差值的平方和 的平均數

4、方差是平均值,均方誤差是真實值。

交叉熵是機器學習中常用的乙個概念,一般用來衡量目標值與**值之間的差距。熵的概念源於資訊理論,因此,首先從資訊理論角度進行分析。

1 資訊量

隨機變數 的資訊量為:

事件發生的概率越大,資訊量越小,反之,概率越小,資訊量越大。這也符合人們的直觀感覺。

2 資訊熵

在資訊理論與概率統計中,熵表示隨機變數不確定性的度量。熵越大,表示不確定性越大。

資訊熵 (information entropy) 用來表示所有資訊量的期望:

3 資訊增益

資訊增益是針對具體屬性的,常用於機器學習決策樹構建中的特徵選擇。指的是分類前的資訊熵減去分類後的資訊熵,即選用某個屬性或者特徵分類後,資訊熵的減少量,計算如下:

為劃分之前的熵,後面為劃分為 類之後,所有類別的條件熵的期望。

4 資訊增益率

資訊增益比,或者叫做資訊增益率:

在決策樹演算法中,id3使用資訊增益,c4.5使用資訊增益率。

5 基尼係數

cart中使用基尼係數構造決策樹。

6 條件熵

在x取值一定的情況下,隨機變數y不確定性的度量:

就是對熵加乙個條件,相當於概率中的聯合分布。

7 相對熵

相對熵又稱為kl散度,常用來度量兩個分部的相似程度,計算公式:

值越小,表示p分布和q分布越接近。

8 交叉熵

對相對熵的公式進行變形,可得:

等式的前一部分是p的熵,後一部分就是交叉熵:

ps:平均數有如下幾個類別:

算數平均數:

幾何平均數:資料之間多為等比關係時使用,不用考慮量綱。會遮蔽可能具有較大影響的大數值。

調和平均數:它有助於處理包含長度或週期不同的比率的資料集

以下不等關係成立:

調和平均數 ≤ 幾何平均數 ≤ 算術平均數

Task4 建模調參

task4 建模調參 學習材料位址 4.4.1 讀取資料 reduce mem usage函式沒看懂 4.4.2 對標籤進行log x 1 變換,使標籤由原來的長尾分布貼近於正態分佈 選用靠前時間的4 5樣本當作訓練集,靠後時間的1 5當作驗證集 l1正則化與l2正則化的區別 l2正則化在擬合過程中...

Task 4 建模與調參

在零基礎入門資料探勘的 task4 建模調參部分,我學習了各種模型以及模型的評價和調參策略。在做好前期的準備工作之後,建模是至關重要的一環,需要根據資料的特點擊擇合適的模型,同時調參使得模型的效果更好。了解常用的機器學習模型,並掌握機器學習模型的建模與調參流程 完成相應學習打卡任務 線性回歸模型 線...

零基礎入門資料探勘 Task4 建模調參

一 介紹 1 線性回歸模型 線性回歸對於特徵的要求 處理長尾分布 理解線性回歸模型 2 模型效能驗證 評價函式與目標函式 交叉驗證方法 針對事件序列問題的驗證 繪製學習率曲線 繪製驗證曲線 3 嵌入式特徵選擇 lasso回歸 ridge回歸 決策樹4 模型對比 常用線性模型 常用非線性模型 5 模型...