機器學習中常見的問題整理(二)

2021-08-18 13:02:42 字數 3076 閱讀 9874

1.knn演算法有哪些缺點?

(1)計算代價很大

①由於knn必須對分類資料計算與每乙個訓練資料的距離,非常耗時;

②knn演算法必須儲存全部的資料集,如果訓練資料集很大,那麼就需要耗費大量的儲存空間;

(2)無法處理categorical變數

(3)對變數的縮放非常敏感

(4)難以處理不同單位和不同數值範圍的變數

(5)對高維資料表現不佳

(6)可解釋性較差,無法給出決策樹那樣的規則

(7)k的選擇問題。k總是在過擬合與欠擬合之間遊走。通過cross validation來選擇k的k是全域性適用的,所以knn總是無法避免地在一些區域過擬合,同時在另一些區域欠擬合。所以knn必須要先做特徵選擇,不然這些不相關的特徵會影響到分類效果,因為knn自己無法學習到哪些特徵重要,哪些不重要。

(8)如果用k近鄰模型做回歸的話,乙個比較明顯的缺陷,就是knn無法做out of sample的回歸**。因為用knn做回歸的時候,**值是它附近幾個值的平均值。所以**值不可能超過**樣本的最大值,也不可能小於樣本的最小值。這個缺點其實是和回歸樹一樣的。

2.非參模型是什麼意思?有哪些模型算是非參的?

如果乙個機器學習模型只由數量有限的引數來決定,那麼這個模型就是引數(parametric)模型。這裡「數量有限」是指個數少,不隨著樣本數量而變化,在知道資料量之前,就已經知道了有多少個引數需要被估計。

引數模型一般結構比較簡單,只需要估計少量的引數。這通常是因為在對引數進行估計前,引數模型就已經對概率分布有了很強的假設。

比如線性回歸就假設了線性關係和殘差的正態性。

比如高斯混合模型就假設了每簇聚類都是乙個高斯分布。

比如邏輯回歸等等。

如果乙個機器學習模型無法由數量有限的引數來決定,那麼這個模型就是非引數(non-parametric)模型。這裡「數量有限」是指個數少,不隨著樣本數量而變化。

比如k最近鄰模型,就是非參的,模型的引數是由每個資料點決定的。

比如k-means,也是非參的,模型的引數是由每個資料點決定的。

比如決策樹、隨機森林、svm等等。

3.hyperparameter與parameter的區別?

引數(parameter)通常是在模型訓練的過程中,我們根據訓練集資料自動得到的。

超參(hyperparameter)通常是在模型訓練前,我們手動設定的,其目的是為了在訓練引數的時候讓模型的表現更好。

我們一般說的調參,都是指的調超參。

以lasso regression為例子,回歸模型裡的係數是引數,正則項的懲罰係數則是超參。

簡單說來,模型內部的引數是引數,由外部輸入的引數就是超參。

4.資料洩漏(data leakage)是什麼意思?

資料洩露就是說用了不該用的資料,比如

(1)在訓練模型時,利用了測試集的資料、資訊

(2)在當前使用了未來的資料

(3)在交叉驗證進行調參時,使用了驗證集的資訊參與模型建立

具體說下第三點,比如對特徵進行標準化,正確的方法應該是在訓練集上標準化,然後應用到驗證集上,而非先標準化,再劃分驗證集。再比如說,要對資料進行pca降維,應該是在訓練集上pca,然後作用到驗證集上,而非對整個資料集進行pca。通常都忽略了這一點。

5.gbdt如何對連續特徵離散化?6.分類變數,進行one hot編碼,維度公升高,如何處理?

有幾種思路可以嘗試的:

(1)要看這個變數背後的邏輯和意義是什麼,有沒有辦法按照這個分類變數本身的意義進行合併。

(2)按照目標值進行合併,比如你的目標是0-1二元**,如果這個分類變數取a的時候,90%是1;取b的時候,89%是1。那麼a和b就可以合併在一起。最後再做one hot。如果你的目標是回歸,也是類似的方法。

(3)把分類變數的分類按頻次高低排序,累計到90%或者95%的分類都保留,最小的10%或者5%可以合併成一類。

(4)hashing trick,隨機合併。

7.利用pca降維,降到幾維比較合適?

(1)如果是為了資料視覺化,可以降到1維(線),2維(平面),或者3維(立體)。

(2)如果是為了建立**模型而降維,比較常用的方法是看多少個主成分解釋了多少百分比的方差,常用的比如說99%,95%,90%。

(3)另乙個方法是kaiser』s rule,保留所有奇異值大於1的

(4)還有個類似elbow method的方法,畫出主成分的個數和解釋方差百分比的曲線,找出手肘的那個點。

8.除了pca,還有什麼降維的方法?

(1)high correlation

如果兩個feature的correlation大於某個閾值(自己設定的,比如0.3),就刪掉其中乙個。

(2)low variance

如果乙個feature的資料方差小於某個閾值(自己設定),就把它刪掉。

(3)missing

如果這一列有很多missing,就把它刪掉。

(4)random forests

random forests訓練之後,可以返回所有特徵的重要性,我們可以選擇重要性最高的一部分特徵,比如20%。

(5)stepwise selection

逐步選擇特徵,可以向前選擇,也可以向後消去。

(6)random projection

類似於pca,但是這個投影是隨機的,而非像pca那樣是正交的。

(7)t-sne

t-sne做的是一種從高維空間到低維空間的保「距」變換。如果兩個點在100維的空間裡「距離」是1,我們希望找到乙個對映,把這兩個點對映到低維(比如2維)空間裡,它們的距離也是1。這樣達到的效果就是,在原空間裡距離遠的點,那麼在新的低維空間裡距離也遠;在原空間裡距離近的點,那麼在新的低維空間裡距離也近。這個所謂的「距離」,不是真正的距離,而是一種相似度。兩個資料點的相似度的計算主要是依據兩點的歐式距離,並且對其進行一些標準化的處理。處理時用到了t分布這個假設。這個從高維到低維的對映,首先需要設定隨機初始點,然後進行優化,從而使得兩個「距離」相等。

機器學習常見問題整理?

答 理解實際問題,抽象成數學模型 分類 回歸 聚類 獲取資料 特徵預處理與特徵選擇 訓練模型與調優 模型診斷 過擬合 欠擬合等 模型融合 上線執行。答 監督學習 非監督學習 半監督學習 強化學習。答 兩者達到的效果是一樣的,都是試圖去減少特徵資料集中的屬性 特徵 的數目 但是兩者所採用的方式方法卻不...

Wap中常見Asp Wml問題整理

1.asp動態生成wml檔案 asp檔案頭宣告如下 response.contenttype text vnd.wap.wml 含義如下 用於宣告此檔案作為wml檔案處理。程式舉例 response.contenttype text vnd.wap.wml wap檔案例項 bicyle祝願您在200...

Wap中常見Asp Wml問題整理

1.asp動態生成wml檔案 asp檔案頭宣告如下 response.contenttype text vnd.wap.wml 含義如下 用於宣告此檔案作為wml檔案處理。程式舉例 wap檔案例項 bicyle祝願您在2005年實現心中的夢想。wml測試 返回上級 http wap.165e.com...