關於雜訊和誤差的概念

2022-01-10 08:23:52 字數 1267 閱讀 3412

背景:

最近在學習時通常會聽到一些詞就是噪音和降噪。同樣為了解惑將網上搜來的解答在這裡總結下。

解答:我的總結:訓練集中的目標變數的錯誤,輸入變數某一維不準確,這些資料被稱為雜訊。

貌似錯誤和雜訊是同義詞。

摘錄:在實際情形中,訓練資料的誤標籤的情況,輸入資料某一維不準確的情況,都可能導致資料資訊不精準,產生雜訊資料。

由於受到雜訊的影響,我們現在可以把y也看做是一種概率分布,y也是從某種分布中取樣而來的,即y~p(y|x)。

這裡的p(y|x)被稱為目標分布。回頭來看,我們可以把學習的目標總結為,在常見的輸入(符合p(x))中可以**出理想的目標(p(y|x))。(這不是監督學習的定義嗎?)

有兩種錯誤計算方法:

第一種叫0/1錯誤,只要【**≠目標】則認為犯錯,通常用於分類;

第二種叫平方錯誤,它衡量【**與目標之間的距離】,通常用於回歸

不同的錯誤型別可能導致不同的懲罰策略。

這兩種錯誤分別是錯誤接受(false accept,即實際是負例,卻判為正例)和錯誤拒絕(false reject,即實際為正例,卻判為負例)。

在有些地方這兩種錯誤也稱作false positive(假陽性,誤報,把合法的判斷成非法的)和false negative(假陰性,漏報,把非法的判斷成合法)。

這裡有時會弄混淆,記得在醫學上,陽性代表有病或者有病毒,陰性代表正常,那麼假陽性就是把正常診斷為有病毒,而假陰性就是把有病毒診斷為正常。

如果在超市中通過指紋識別來進行打折活動,如果是vip使用者,之前有指紋錄入的話,就應該有優惠活動,否則沒有。

如果發生false reject的情況,那麼顧客可能會不高興,這樣就會損失了一部分未來的生意;而如果發生false accept的話,超市只不過損失了一點小錢。

所以對於超市的成本表,false reject會犧牲成本比較大,而false accept犧牲的成本會較小。所以,我們應該盡量避免false reject的情形。

如果美國中情局,用指紋識別來判斷該人是否有許可權進入系統檢視重要資料。

那麼,發生false accept的情況會導致很嚴重的後果,而false reject的話,就不會有太大的影響。

所以對於cia的成本表,應該盡量避免false accept的情形。

尚待解決的疑問或者改進:

抽樣中誤差的相關概念和種類

總結下抽樣技術中幾個誤差 誤差 測定值或估計值 真值 測定值或估計值 觀察值和樣本統計量 總誤差可分解非抽樣誤差 偏差 抽樣誤差 非抽樣誤差 指不是由於抽樣或估計方法引起的誤差。它不是抽樣調查固有的,即使是全面調查也存在。如 過失性錯誤,調查員錯測 錯記 被調查者無回答 測量誤差 又稱隨機誤差 前者...

機器學習與資料探勘 第四講 誤差和雜訊

在有噪音的情況下y yy的輸出帶有了概率性,即y yy服從如下分布 x p x x p x x p x y p y x y p y x y p y x p y x f x noi se p y x f x noise p y x f x no ise,x條件下 條件下條件 下y 出現的概率分布。p ...

Swift 關於float的誤差

最近接手乙個專案,收拾一堆的剩下的爛攤子,有相關金額的部分,現場反應接收到的json資料在顯示和計算時,有的時候會有1分錢的誤差,關於錢的事情是絕對不可能允許的。原因其實很簡單,檢視了一下 在用mjextension接收資料時,全部選用的是float型別來接收,在需要使用高精度的時候,我們一定要使用...