答:理解實際問題,抽象成數學模型(分類、回歸、聚類)——>獲取資料——>特徵預處理與特徵選擇——>訓練模型與調優——>模型診斷(過擬合、欠擬合等)——>模型融合——>上線執行。
答:監督學習、非監督學習、半監督學習、強化學習。
答:兩者達到的效果是一樣的,都是試圖去減少特徵資料集中的屬性(特徵)的數目;
但是兩者所採用的方式方法卻不同:降維的方法主要是通過屬性間的關係,如組合不同的屬性得新的屬性,這樣就改變了原來的特徵空間;而特徵選擇的方法是從原始特徵資料集中選擇子集,是一種包含的關係,沒有更改原始的特徵空間。
其主要思想是:對每一維的特徵「打分」,即給每一維的特徵賦予權重,這樣的權重就代表著該維特徵的重要性,然後依據權重排序。
其主要思想是:將子集的選擇看作是乙個搜尋尋優問題,生成不同的組合,對組合進行評價,再與其他的組合進行比較。這樣就將子集的選擇看作是乙個是乙個優化問題,這裡有很多的優化演算法可以解決,尤其是一些啟發式的優化演算法,如ga,pso,de,abc等,詳見「優化演算法——人工蜂群演算法(abc)」,「優化演算法——粒子群演算法(pso)」。
主要方法有:recursive feature elimination algorithm(遞迴特徵消除演算法)
3、embedded方法(嵌入式)
其主要思想是:在模型既定的情況下學習出對提高模型準確性最好的屬性。這句話並不是很好理解,其實是講在確定模型的過程中,挑選出那些對模型的訓練有重要意義的屬性。
主要方法:正則化,如嶺回歸就是在基本線性回歸的過程中加入了正則項。
答:交叉驗證、繪製學習曲線等。
過擬合就是模型把資料學習的太徹底,以至於把雜訊資料的特徵也學習到了,這樣就會導致在後期測試的時候不能夠很好地識別資料,即不能正確的分類,模型泛化能力太差。
解決辦法:
重新清洗資料
增加資料量
降低模型複雜度
採用正則化方法
欠擬合就是模型沒有很好地捕捉到資料特徵,不能夠很好地擬合資料。
解決辦法:
提供特徵的數量和質量
增加模型複雜度
減少正則化引數
答:樹模型(概率模型)不需要,如決策樹、rf;而想adaboost、svm、lr、knn、kmeans之類的優化問題就需要歸一化。
樹模型不需要歸一化,因為數值縮放不影響分類點位置。
而對於線性模型,使用梯度下降時,損失等高線是乙個橢圓的形狀,如迭代到最低點需要多次迭代,使用歸一化後,等高線就是圓形的,迭代次數較少。
答:有監督學習:對具有標記的訓練樣本進行學習,以盡可能對訓練樣本集外的資料進行分類**(lr、svm、rf、gbdt)
無監督學習:對未標記的樣本進行訓練學習,已發現這些樣本中的知識結構(kmeans,dl)
生成模型:由資料學習聯合概率分布p(x,y),然後求出條件概率分布p(y|x)作為**的模型,即生成模型:p(y|x)= p(x,y)/ p(x)。(樸素貝葉斯)
生成模型可以還原聯合概率分布p(x,y),並且有較快的學習收斂速度,還可以用於隱變數的學習
判別模型:由資料直接學習決策函式y=f(x)或者條件概率分布p(y|x)作為**的模型,即判別模型。(k近鄰、決策樹)
直接面對**,往往準確率較高,直接對資料在各種程度上的抽象,所以可以簡化模型
答:所謂正則化就是對引數施加一定的控制,防止引數走向極端。
答:l1正則化是指權值向量w中各個元素的絕對值之和,通常表示為||w||
l2正則化是指權值向量w中各個元素的平方和然後再求平方根
l1正則化可以產生稀疏權值矩陣,即產生乙個稀疏模型,可以用於特徵選擇
l2正則化可以防止模型過擬合(overfitting);一定程度上,l1也可以防止過擬合
答:可以看到,l1-ball 與l2-ball 的不同就在於l1在和每個座標軸相交的地方都有「角」出現,而目標函式的測地線除非位置擺得非常好,大部分時候都會在角的地方相交。注意到在角的位置就會產生稀疏性,例如圖中的相交點就有w1=0,而更高維的時候(想象一下三維的l1-ball 是什麼樣的?)除了角點以外,還有很多邊的輪廓也是既有很大的概率成為第一次相交的地方,又會產生稀疏性。
相比之下,l2-ball 就沒有這樣的性質,因為沒有角,所以第一次相交的地方出現在具有稀疏性的位置的概率就變得非常小了。這就從直觀上來解釋了為什麼l1-regularization 能產生稀疏性,而l2-regularization 不行的原因了。
答:1.決策樹:從根節點開始,測試待分類專案中相應的特徵屬性,並按其值選擇輸出分支,直到葉子結點,將葉子節點存放的類別作為決策結果
2.bagging(綜合多個弱分類器的結果得到乙個強分類的思想):
1)從樣本中重採用選出n個樣本
2)在所有屬性上對n個樣本建立分建立分類器(id3,c4.5,cart,svm,logistic 回歸等)
3)重複以上步驟m次(奇數),即獲得了m個分類器
4)將資料放在這m個分類器上,最後根據m個分類器的投票結果決定資料屬於哪類
3.random forest(在bagging基礎上做了修改,有限樣本,有限屬性):
1)從樣本集中採用boostrap採用(有放回的採用)選出n個樣本
2)從所有屬性中隨機選擇k個屬性,選擇最佳分割屬性作為結點,建立cart樹
3)重複以上兩步m次,即建立m棵cart樹
4)這m棵cart形成隨機森林,通過投票結果決定資料屬於哪一類
4.boosting:(與bagging類似,迴圈巢狀,不好的資料重新weight)
通過m次的迭代,每次迭代訓練出不同的弱分類器,然後將這n個弱分類器進行組合,形成乙個強分類器。adaboost是最具代表性的乙個演算法。
adaboost屬於boosting,採用指數損失函式替代原本分類任務的0/1損失函式
gbdt屬於boosting的優秀代表,對函式殘差近似值進行梯度下降,用cart回歸樹做學習
器,集成為回歸模型
xgboost屬於boosting的集大成者,對函式殘差近似值進行梯度下降,迭代時利用了二階梯度資訊,整合模型可分類,也可回歸。由於它可在特徵粒度上進行平行計算,結構風險和工程實現多了很多優化,泛化效能和擴充套件效能都比gbdt好。
答:聯絡:1)都處理分類問題,一般都為線性二分類問題
2)都可加不同的正則化項,如l1,l2
區別:1)lr是引數模型,svm是非引數模型
2)目標函式:lr採用logistic loss,svm採用hinge loss
3)svm只考慮support vector,也就是和分類最相關的少數點
去學習分類器。而邏輯回歸通過非線性對映,大大減少離分類平面較遠點的權重,相對提公升與分類最相關資料點的權重
4)lr簡單、易於理解,svm相對複雜,svm轉換為對偶問題後,分類只需計算與少數幾個支援向量的距離,在進行複雜核函式計算時,優勢明顯,能大大簡化模型和計算。
5)lr能做的svm能做,但準確率上有問題,svm能做的,lr做不了。
答:用來表示變數的不確定性
答:如何調整 θ 使得j(θ)(損失函式)取最小值有很多方法,其中有一種是最小二乘法,另一種是梯度下降法。
演算法流程如下:
1)首先對θ 賦值,這個值可以是隨機的,也可以是全零向量
2)改變θ 的值,使得j(θ)按梯度下降的方向進行減少,θ =θ-∇θj
易被初始值的選擇而陷入區域性最優。
主題模型的主要思想就是通過對文件的統計分析找到對應的主題,再有主題來找到在這個主題下會產生詞語的概率。在操作中,文件和詞都是已知條件而主題模型則是隱變數,基於這一點我們能夠很好的利用em演算法特性。
lda模型:是乙個三層結構的貝葉斯模型,需要超引數。
AIX常見問題整理
問 怎樣設定可以是普通使用者不能su成root?答 itty user change show characteristics of a user root another user can su to user?false aixtoolbox installp ppc rpm.rte安裝時,以r...
IOS常見問題整理
nsallowsarbitraryloads 2 ios應用啟動時不佔滿全屏,上下有黑邊 原因是沒有retina4對應的啟動,解決方法很簡單,就是把retina4對應的給補上就只可以了 設定 launch images source 集 ios 8以前啟動頁用,8以後的用xib檔案 3 html i...
HashMap常見問題整理
二 hashmap在什麼條件下擴容 三 hashmap的get put的過程 知道hashmap中get元素的過程是什麼樣嗎 你還知道哪些hash演算法?說說string中hashcode的實現?此題頻率很高 四 為什麼hashmap的在鍊錶元素數量超過8時改為紅黑樹 五 hashmap的併發問題 ...