如何應用ML的建議 上

2021-09-06 17:59:04 字數 2617 閱讀 1069

遇到問題-部分(一)

錯誤統計-部分(二)

正確的選取資料集-部分(三)

辨識是欠擬合還是過擬合-部分(四)

正則化與過擬合(high variance)和欠擬合(high bias)的關係-部分(五)

部分(六)、部分(七)見「如何應用ml的建議-下」

部分(一):

在經過思維考慮後,很有想法的提出了幾個自認為有助於改善的方法:

對於這個具體的例子來說,可以有這幾個想法,是否是訓練樣本不夠導致訓練後的模型的引數不夠去表徵原始資料的資訊。或者是特徵太多造成的過擬合,或者是特徵太少造成的欠擬合,還是因為正則化項太大導致模型函式太平滑使得對資料欠擬合,還是正則化項太小,導致對資料的過擬合等等。

通常來說,很多人是靠著感覺去選擇對哪一步進行操作,在錯誤的選擇上,有可能當付出很多的時間,最好卻發現效果依然不好。所以如何合理的選擇下一步該做什麼,是非常有必要,而且效率的。這就是ml診斷:

部分(二):

首先,如圖:

這種情況就算典型的過擬合狀態,對於特徵維度很小的時候,我們可以進行視覺化得到模型的結果來發現是否過擬合還是欠擬合,但是當維度很多的時候,是無法進行視覺化的。這時候需要將資料集分成兩個部分(一般都是7:3分)

當然了,最好就是對資料集進行隨機的選擇70%作為訓練資料集,剩下的隨機打亂作為**資料集,(其實這裡自己覺得這裡的需要劃分的資料集可以是將最初的訓練資料集劃成兩部分,當然,也可以將最初的訓練集和**集一起組合然後在進行劃分。不論怎麼說 這裡都是為了找到模型不理想的問題所在。)

然後需要做的就是對前面選取的70%多的訓練資料集照常的訓練,為了得到乙個固定的引數集,然後通過這個訓練好的引數集來對剩下的30%資料進行**,得到乙個錯誤率(這裡和原來的訓練過程其實差不多),但是ng建議在對30%的**資料進行**的時候,需要的是統計錯誤率,即在**資料集上錯了多少次,對於分類問題來說,直接統計即可,對於回歸問題來說,如下圖所示:

圖中為邏輯回歸模型如何處理測試誤差,就是將誤差進行0-1的量化,對的就是0,錯的就是1,統計**錯了多少次。

部分(三):

ng認為特徵選擇問題,正則化項引數選擇問題,都算作模型選擇問題。(對正則化項的lamuda的選擇也算?,才疏學淺,先不表。)在比如模型是多項式模型中,到底是1次多項式還是2次多項式還是n次多項式就是可以作為模型選擇的來進行考慮, 

圖中顯示,當你的模型在訓練資料上的錯誤率低於在測試資料上的錯誤率, 那可能就是過擬合了。

當我們在選擇好模型之後,在訓練資料上進行訓練,並得到模型的引數集,然後用這個引數集來對測試資料進行**得到的錯誤率來選擇模型,這本身對測試資料來說就是不公平的,測試資料原來扮演的就是我們未知的資料,而現在卻通過測試資料來選取模型,那麼我們就等於事先使用了測試資料 包含的資訊,所以不是很嚴謹,所以為了解決這個問題,提出了將資料集分成三個部分:

如上圖所示,才有將資料分成train set,validation set,和test set。

現在就可以通過中間的交叉驗證集來,選擇最好的引數集表示的模型,並用這個選擇的模型來得到在test上的誤差,以此來表示這個模型的生成誤差。

部分(四)

如果模型在測試資料集上效果不好,多半是因為有著高偏移或者高方差的問題(是說模型對於資料來說不能很好的擬合的意思,相比較於理想的模型來說,我們的模型離得太遠。)

圖中可以看出,左小圖 是欠擬合,右小圖是過擬合,中間的是乙個適當的選擇,粉紅的線是我們對不同的模型在同乙個訓練集上的錯誤率,是朝著越來越小的方向進行的,紅色的是在交叉驗證集或者測試集上的表現,可以看出在前期模型上是朝著理想的方向的,但是在某個點之後卻開始誤差變大。

從圖中可以看出,前面的部分是欠擬合,也叫做有著高偏移的問題,後面叫過擬合,也叫做有著高方差的問題。這裡教會我們如何來辨識是欠擬合還是過擬合。

ML學習十 應用及其學習的建議

當我們運用訓練好了的模型來 未知資料的時候發現有較大的誤差,我們下一步可以做什麼 下面是幾種方法 我們不應該隨機選擇上面的某種方法來改進我們的演算法,而是運用一些機器學習診斷法來幫助我們知道上面哪些方法對我們的演算法是有效的。我們將以此為基礎來討論如何避免過擬合和欠擬合的問題。為了檢驗演算法是否過擬...

應用PCA的建議

pca運用在監督學習演算法下,可以對資料x降維,從而加速學習演算法的速度。如下所示,我們的訓練集x是10000維向量,我們可以通過pca將其降維成z是1000維的向量,此時訓練集從 x,y 變成 z,y 每次輸入x都通過pca的對映變成z,然後再帶入到假設函式中計算。除了加速學習演算法的速度,pca...

應用寶上架審核要求 APP推廣 如何上架應用寶市場

安卓市場目前主流市場主要是 華為 小公尺 應用寶 oppo,其次是魅族vivo市場,今天我們要分享的是如何上架應用寶市場。1 賬戶申請。根據後台提示填寫相對應的資訊即可 個人的需要法人手持身份證 公司需要營業執照副本 2 資料準備 應用寶市場需要注意的是 應用名稱只能修改2次,2次過後終身不可修改,...