HCIE BigData學習筆記 支援向量機

2021-09-30 16:36:18 字數 2763 閱讀 6807

1、華為mls分類模型中資料的檢視

分類模型評估輸出結果資料

使用工作流流程(含有資料拆分節點):

資料總數:45211條,其中,訓練資料:29892條,**資料:15319條

**結果輸出資料:15319條

分類模型評估輸出結果資料:15319條

分類模型評估視覺化混淆矩陣資料:1687條,佔實際**資料量約11%

1.設定閾值=0.5,根據**結果統計的混淆矩陣為:

真陽性 13541(0+0+4394+9014+133)

偽陰性0(0+0+0+0+0)

偽陽性1778(0+0+293+1420+65)

真陰性0(0+0+0+0+0)

2.設定閾值=0.7,根據**結果統計的混淆矩陣為:

真陽性 4394(0+0+4394)

偽陰性9147(9014+133+0+0+0+0+0)

偽陽性293(0+0+293)

真陰性1485(1420+65+0+0+0+0+0)

故,分類模型評估的的檢視矩陣如下:真偽

真陽

偽陽

偽陰

真陰

視覺化與實際資料條數不一致是因為視覺化採用的只有部分資料

2、要將所要結果輸出為目標

3、懲罰係數

當我們構建出最大超平面的時候,本來是輸入屬性,經過判斷之後,它是屬於不存款的一邊,但是真實是存款的,我們就可以改變懲罰係數來將本來落在不存款一邊的資料變成存款的,懲罰係數越大,擬合的越多,引數調整的好,可以解決欠擬合(over-fitting )問題,調整太多,可能出現過擬合(under-fitting)

4、欠擬合

欠擬合指的是模型在訓練和**時表現都不好的情況。乙個欠擬合的機器學習模型不是乙個良好的模型並且由於在訓練資料上表現不好這是顯然的。欠擬合通常不被討論,因為給定乙個評估模型表現的指標的情況下,欠擬合很容易被發現。矯正方法是繼續學習並且試著更換機器學習演算法。

5、過擬合

過擬合指的是模型對於訓練資料擬合程度過當的情況。當某個模型過度的學習訓練資料中的細節和噪音,以至於模型在新的資料上表現很差,我們稱過擬合發生了。這意味著訓練資料中的噪音或者隨機波動也被當做概念被模型學習了。而問題就在於這些概念不適用於新的資料,從而導致模型泛化效能的變差。過擬合更可能在無引數非線性模型中發生,因為學習目標函式的過程是易變的具有彈性的。同樣的,許多的無引數器學習演算法也包括限制約束模型學習概念多少的引數或者技巧。例如,決策樹就是一種無引數機器學習演算法,非常有彈性並且容易受過擬合訓練資料的影響。這種問題可以通過對學習過後的樹進行剪枝來解決,這種方法就是為了移除一些其學習到的細節。

6、roc

受試者工作特徵曲線 (receiver operating characteristic curve,簡稱roc曲線),又稱為感受性曲線(sensitivity curve)。得此名的原因在於曲線上各點反映著相同的感受性,它們都是對同一訊號刺激的反應,只不過是在兩種不同的判定標準下所得的結果而已。受試者工作特徵曲線就是以假陽性概率(false positive rate)為橫軸,真陽性(true positive rate)為縱軸所組成的座標圖,和受試者在特定刺激條件下由於採用不同的判斷標準得出的不同結果畫出的曲線。1

7、auc解釋

roc 曲線下的面積就是 auc 面積,所以 roc 曲線約拱,auc 面積越大,auc 的面積就是真陽率乘以偽陽率。

auc=1,完美分類器,採用這個**模型時,不管設定什麼閾值都能得出完美**。絕大多數**的場合,不存在完美分類器。

0.58、各率解釋

準確率:(真陽+真陰) /樣本總數

召回率:真陽/真陽樣本總數

精確率:真陽/(真陽+偽陽)

roc曲線最早是運用在軍事上,後來逐漸運用到醫學領域。相傳在第二次世界大戰期間,雷達兵的任務之一就是死死地盯住雷達顯示器,觀察是否有敵機來襲。理論上講,只要有敵機來襲,雷達螢幕上就會出現相應的訊號,但是實際上,有時如果有飛鳥出現在雷達掃瞄區域時,雷達螢幕上有時也會出現訊號。這種情況令雷達兵煩惱不已:如果過於謹慎,凡是有訊號就確定為敵機來襲,顯然會增加誤報風險;如果過於大膽,凡是訊號都認為飛鳥,又會增加漏報的風險。每個雷達兵都竭盡所能地研究飛鳥訊號和飛機訊號之間的區別,以便增加預報的準確性。但問題在於,每個雷達兵都有自己的判別標準,有的雷達兵比較謹慎,容易出現誤報;有的雷達兵則比較膽大,容易出現漏報。為了研究每個雷達兵預報的準確性,雷達兵的管理者彙總了所有雷達兵的預報特點,特別是他們漏報和誤報的概率,並將這些概率畫到乙個二維座標裡面。這個二維座標的縱座標為敏感性,即在所有敵機來襲的事件中,每個雷達兵準確預報的概率。而橫座標則特1-特異性,表示了在所有非敵機來襲訊號中,雷達兵預報錯誤的概率。由於每個雷達兵的預報標準不同,且得到的敏感性和特異性的組合也不同。將這些雷達兵的預報效能進行彙總後,雷達兵管理員發現他們剛好在一條曲線上,這條曲線就是我們經常在醫學雜誌上看見的roc曲線。 ↩︎

學習筆記 雜湊學習筆記

hash基本原理 hash就是乙個像函式一樣的東西,你放進去乙個值,它給你輸出來乙個值。輸出的值就是hash值。一般hash值會比原來的值更好儲存 更小 或比較。那字串hash就非常好理解了。就是把字串轉換成乙個整數的函式。而且要盡量做到使字串對應唯一的hash值。它的主要思路是選取恰當的進製,可以...

學習筆記 CentOS 學習筆記01

簡單的做個課堂筆記 虛擬機器用的是vmware,系統是centos cd etc sysconfig network scripts pwdls 顯示列表 cat ifcfg eth0 檢視檔案內容 vi ifcfg eth0 進入vi編輯器 onboot no 原始設定 x逐字刪除 d刪除整行 a...

筆記 spring cloud 學習筆記

1 spring cloud 是什麼 spring cloud為開發人員提供了快速構建分布式系統中一些常見模式的工具 例如配置管理,服務發現,斷路器,智慧型路由,微 控制匯流排 分布式系統的協調導致了樣板模式,使用spring cloud開發人員可以快速地支援實現這些模式的服務和應用程式。他們將在任...