背景:
最近在學習時通常會聽到一些詞就是噪音和降噪。同樣為了解惑將網上搜來的解答在這裡總結下。
解答:我的總結:訓練集中的目標變數的錯誤,輸入變數某一維不準確,這些資料被稱為雜訊。
貌似錯誤和雜訊是同義詞。
摘錄:在實際情形中,訓練資料的誤標籤的情況,輸入資料某一維不準確的情況,都可能導致資料資訊不精準,產生雜訊資料。
由於受到雜訊的影響,我們現在可以把y也看做是一種概率分布,y也是從某種分布中取樣而來的,即y~p(y|x)。
這裡的p(y|x)被稱為目標分布。回頭來看,我們可以把學習的目標總結為,在常見的輸入(符合p(x))中可以**出理想的目標(p(y|x))。(這不是監督學習的定義嗎?)
有兩種錯誤計算方法:
第一種叫0/1錯誤,只要【**≠目標】則認為犯錯,通常用於分類;
第二種叫平方錯誤,它衡量【**與目標之間的距離】,通常用於回歸
不同的錯誤型別可能導致不同的懲罰策略。
這兩種錯誤分別是錯誤接受(false accept,即實際是負例,卻判為正例)和錯誤拒絕(false reject,即實際為正例,卻判為負例)。
在有些地方這兩種錯誤也稱作false positive(假陽性,誤報,把合法的判斷成非法的)和false negative(假陰性,漏報,把非法的判斷成合法)。
這裡有時會弄混淆,記得在醫學上,陽性代表有病或者有病毒,陰性代表正常,那麼假陽性就是把正常診斷為有病毒,而假陰性就是把有病毒診斷為正常。
如果在超市中通過指紋識別來進行打折活動,如果是vip使用者,之前有指紋錄入的話,就應該有優惠活動,否則沒有。
如果發生false reject的情況,那麼顧客可能會不高興,這樣就會損失了一部分未來的生意;而如果發生false accept的話,超市只不過損失了一點小錢。
所以對於超市的成本表,false reject會犧牲成本比較大,而false accept犧牲的成本會較小。所以,我們應該盡量避免false reject的情形。
如果美國中情局,用指紋識別來判斷該人是否有許可權進入系統檢視重要資料。
那麼,發生false accept的情況會導致很嚴重的後果,而false reject的話,就不會有太大的影響。
所以對於cia的成本表,應該盡量避免false accept的情形。
尚待解決的疑問或者改進:
抽樣中誤差的相關概念和種類
總結下抽樣技術中幾個誤差 誤差 測定值或估計值 真值 測定值或估計值 觀察值和樣本統計量 總誤差可分解非抽樣誤差 偏差 抽樣誤差 非抽樣誤差 指不是由於抽樣或估計方法引起的誤差。它不是抽樣調查固有的,即使是全面調查也存在。如 過失性錯誤,調查員錯測 錯記 被調查者無回答 測量誤差 又稱隨機誤差 前者...
機器學習與資料探勘 第四講 誤差和雜訊
在有噪音的情況下y yy的輸出帶有了概率性,即y yy服從如下分布 x p x x p x x p x y p y x y p y x y p y x p y x f x noi se p y x f x noise p y x f x no ise,x條件下 條件下條件 下y 出現的概率分布。p ...
Swift 關於float的誤差
最近接手乙個專案,收拾一堆的剩下的爛攤子,有相關金額的部分,現場反應接收到的json資料在顯示和計算時,有的時候會有1分錢的誤差,關於錢的事情是絕對不可能允許的。原因其實很簡單,檢視了一下 在用mjextension接收資料時,全部選用的是float型別來接收,在需要使用高精度的時候,我們一定要使用...