中值[median] (又稱中位數)是指將統計總體當中的各個變數值按大小順序排列起來,形成乙個數列,處於變數數列中間位置的變數值就稱為中位數,用me表示。當變數值的項數n為奇數時,處於中間位置的變數值即為中位數;當n為偶數時,中位數則為處於中間位置的2個變數值的平均數。
中值也稱
中位數 ,即資料按公升序或者降序排列,假如有n個資料,當n為偶數時,中位數為第n/2位數和第(n+2)/2位數的
平均數 ;如果n為
奇數 ,那麼中位數為第(n+1)/2位數的值。
描述資料集取值水平的主要有以下三個指標:平均數,中位數,眾數。 通常似乎人們更青睞平均數,例如衡量職工收入水平用「職工平均工資」,衡量班級學習成績用「學生平均成績」,以為平均數是衡量資料集取值水平的最好指標,其實錯了!平均數有乙個天然的缺陷沒有得到重視,平均數受極端值的影響是非常大的。例如一些年薪千萬、數百萬的高層加入職工平均工資的計算,會大幅度提公升「職工工資」的水平,從而產生職工工資已經很高的假象。去年上海市統計公布的職工月平均工資是三千多元,可是睜開眼睛看看,左鄰右舍中大量的是只有
一、二千元月收入的,只不過剛剛溫飽而已! 其實人們是最就意識到平均數這種缺陷的,並且努力試圖克服這種缺陷,例如在靠裁判、評委打分決定成績的競技體育、選秀活動中,往往採用去掉極端的最高、最低分以後計算平均分的方法,這確實可以在一定程度上抑制平均數的缺陷。 在某些場合,中位數、眾數會可能更真實地反映資料集的水平,例如在統計職工平均工資時,如果不僅僅統計平均數,也同時統計中位數與眾數的話,我們就能夠真實地了解人民的收入情況,從而不會作出脫離人民實際狀況的決策。
《機器學習》正則化的含義
這些特徵值未必是必要的,過多此類的特徵值會引起回歸函式的過擬合。但若是特徵值不足就會導致函式的欠擬合問題。所以為了約束不相關項的係數theta,增加正則項。對於logistic regression亦是在末尾新增這麼一項。他們確保了在擬合一些不那麼必要的theta值時,使這些theta值趨與0。la...
演算法筆記 交叉熵的含義以及在機器學習中的應用
感謝原文 熵用來表示乙個隨機變數資訊量的期望 相對熵 kl散度 用來衡量隨機變數不同分布之間的差異。在機器學習的分類問題中,p表示標準分類結果,q表示學習得到的分類結果,那麼p和q之間的相對熵越小,就說明q的分類效果越好 接近正確結果p 訓練的目的就是獲得更加標註的分布q,使得p,q之間的交叉熵更小...
機器學習 機器學習中的損失函式
在機器學習中,損失函式是用來衡量 結果與實際值之間差別大小的指標。一般的損失函式有5五種 l m 01ifm 0ifm 0 主要用於maximum margin的分類演算法,如svm演算法。hinge損失函式的描述如下式 l y max 0 1 t y 這裡t 1 or 1 y是 值,而t 是實際真...