統計學習 補充點1

2022-08-05 02:09:20 字數 2706 閱讀 9494

對數損失, 即對數似然損失(log-likelihood loss), 也稱邏輯斯諦回歸損失(logistic loss)或交叉熵損失(cross-entropy loss), 是在概率估計上定義的.它常用於(multi-nominal, 多項)邏輯斯諦回歸和神經網路,以及一些期望極大演算法的變體. 可用於評估分類器的概率輸出.

對數損失通過懲罰錯誤的分類,實現對分類器的準確度(accuracy)的量化. 最小化對數損失基本等價於最大化分類器的準確度.為了計算對數損失, 分類器必須提供對輸入的所屬的每個類別的概率值, 不只是最可能的類別. 對數損失函式的計算公式如下: 

其中, y 為輸出變數, x為輸入變數, l 為損失函式. n為輸入樣本量, m為可能的類別數, yij 是乙個二值指標, 表示類別 j 是否是輸入例項 xi 的真實類別. pij 為模型或分類器**輸入例項 xi 屬於類別 j 的概率.

如果只有兩類 , 則對數損失函式的公式簡化為

這時, yi 為輸入例項 xi 的真實類別, pi 為**輸入例項 xi 屬於類別 1 的概率. 對所有樣本的對數損失表 示對每個樣本的對數損失的平均值, 對於完美的分類器, 對數損失為 0 .

ref: 

概率p越大,不確定越小,1/p越小,資訊熵實質上是對log(1/p)取期望,因此有不確定性越小,資訊熵越小。即資訊熵越大,不確定越大。

3. 感知機模型收斂性證明

ref

觀察下面的例子,我們看到對於樣本x,通過knn演算法,我們顯然可以得到x應屬於紅點,但對於樣本y,通過knn演算法我們似乎得到了y應屬於藍點的結論,而這個結論直觀來看並沒有說服力。

由上面的例子可見:該演算法在分類時有個重要的不足是,當樣本不平衡時,即:乙個類的樣本容量很大,而其他類樣本數量很小時,很有可能導致當輸入乙個未知樣本時,該樣本的k個鄰居中大數量類的樣本占多數。 但是這類樣本並不接近目標樣本,而數量小的這類樣本很靠近目標樣本。這個時候,我們有理由認為該位置樣本屬於數量小的樣本所屬的一類,但是,knn卻不關心這個問題,它只關心哪類樣本的數量最多,而不去把距離遠近考慮在內,因此,我們可以採用權值的方法來改進。和該樣本距離小的鄰居權值大,和該樣本距離大的鄰居權值則相對較小,由此,將距離遠近的因素也考慮在內,避免因乙個樣本過大導致誤判的情況。

從演算法實現的過程可以發現,該演算法存兩個嚴重的問題,第乙個是需要儲存全部的訓練樣本,第二個是計算量較大,因為對每乙個待分類的樣本都要計算它到全體已知樣本的距離,才能求得它的k個最近鄰點。knn演算法的改進方法之一是分組快速搜尋近鄰法。其基本思想是:將樣本集按近鄰關係分解成組,給出每組質心的位置,以質心作為代表點,和未知樣本計算距離,選出距離最近的乙個或若干個組,再在組的範圍內應用一般的knn演算法。由於並不是將未知樣本與所有樣本計算距離,故該改進演算法可以減少計算量,但並不能減少儲存量。

似然與概率

在統計學中,似然函式(likelihood function,通常簡寫為likelihood,似然)是乙個非常重要的內容,在非正式場合似然和概率(probability)幾乎是一對同義詞,但是在統計學中似然和概率卻是兩個不同的概念。

概率是在特定環境下某件事情發生的可能性,也就是結果沒有產生之前依據環境所對應的引數來**某件事情發生的可能性,比如拋硬幣,拋之前我們不知道最後是哪一面朝上,但是根據硬幣的性質我們可以推測任何一面朝上的可能性均為50%,這個概率只有在拋硬幣之前才是有意義的,拋完硬幣後的結果便是確定的;

而似然剛好相反,是在確定的結果下去推測產生這個結果的可能環境(引數)

,還是拋硬幣的例子,假設我們隨機拋擲一枚硬幣1,000次,結果500次人頭朝上,500次數字朝上(實際情況一般不會這麼理想,這裡只是舉個例子),我們很容易判斷這是一枚標準的硬幣,兩面朝上的概率均為50%(由實際例子推斷出來的),這個過程就是我們運用出現的結果來判斷這個事情本身的性質(引數),也就是似然。

總結:概率是由性質去**結果,似然是由結果去推測引數(性質)。

《統計學》學習1

1.什麼是統計學 收集,處理,分析和解釋資料的科學!1.1 資料收集 取得資料 1.2 資料處理 圖表展示資料 1.3 資料分析 分析資料 1.4 資料解釋 結構的說明 統計研究的過程 2.統計方法分類 統計方法 描述統計 推斷統計 2.1 描述統計 研究資料收集,整理和描述的統計學分支 內容 蒐集...

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...

統計學習方法1

1 統計學習方法三要素 model strategy algorithm 1.1 strategy loss function l y,f x risk function r f e l y,f x 也就是損失函式的期望 erm empirical risk minimization 經驗風險最小化...