神經網路
反向傳播演算法原理及推導
cnn原理
卷積、padding、
sigmoid函式
rnn原理
lstm如何解決梯度消失或瀰散問題:
普通的rnn在反向傳播過程中,會包含連乘項:
對於lstm,隱含層之間的關係可以表示為:
於是,需要連乘的項可表示為:
在實際引數更新中,可以通過控制bias比較大,使得該值接近於1;在這種情況下,即使通過很多次連乘的操作,梯度也不會消失,然後可以保留長距離連乘項的存在。即總可以通過選擇合適的引數,在不發生梯度**的情況下,找到合理的梯度方向來更新引數,而且這個方向可以充分地考慮遠距離的隱含層資訊的傳播影響。
attention機制
有哪些損失函式
特徵工程
pca的原理
svd的原理
過取樣、降取樣:
有哪些過取樣手段: smote
有哪些降取樣手段
什麼情況下進行過取樣
什麼情況下進行降取樣
資料無量鋼化處理:
目的:便於不同維度之間的特徵進行比較和加權
1)歸一化:把特徵歸一化到[0,1]區間之內
x' = (x-min)/(max-min)
2)標準化:把特徵對映到以0為中心,1為方差的正態分佈內
x' = (x-e(x))/omiga
異:歸一化(0~1):拍扁統一到區間(僅由最大最小值差別決定);
標準化(-無窮,+無窮)---「彈性」+「動態」,縮放和每個點都有關係,通過均值+方差體現。
適用條件:
a. 歸一化的最大最小值非常容易受到異常點的影響,這種方法魯棒性較差,只使用傳統精確小資料場景;
b. 對於乙個數值特徵來說,很大可能它是服從正態分佈的,所以標準化更加合理。
問題:邏輯回歸必須進行標準化嗎?
用到正則的邏輯回歸需要標準化,沒用到的不一定要,但是標準化可以盡快收斂。這取決於我們的邏輯回歸是不是用正則,如果不用正則,那麼標準化並不是必須的,如果用到了正則,那麼標準化是必須的。
原因:加入不同的特徵取值範圍不一樣,有的是0到0.1,有的是100到1000,那麼,每個特徵對應的引數大小、級別也會不一樣,在l1正則時,我們都是簡單的將引數的絕對值相加,因為它們的大小級別不一樣,就會導致l1最後只會對那些級別比較大的引數有作用,那些小的引數都被忽略了。
標準化對邏輯回歸有什麼好處嗎?
搭:進行標準化後,我們得出的引數值大小可以反應出不同特徵對樣本label的貢獻度,方便我們進行特徵篩選。如果不做標準化,是不能這樣來篩選特徵的。
標準化有什麼注意事項嗎?
最大的注意事項就是:先拆分出test集,不要在整個資料集上做標準化,因為那樣會將test集的資訊引入到訓練集中。
總結:a. 在分類、聚類訴案中,需要使用距離度量相似性的時候、或者使用pca技術進行降維的時候,標準化表現更好;
b. 基於樹的模型不需要標準化;
c. svm、神經網路(sgd需要)需要標準化;
d. 用到正則的線性模型一定要標準化,沒用到正則的線性模型不一定要標準化,但是標準化可以加快收斂;
kmeans,knn一些涉及到距離有關的演算法,或者聚類的話,都是需要先做變數標準化的;
歸一化:
在不涉及距離度量、協方差計算、資料不符合正態分佈的時候,可以使用歸一化方法。有時候,我們必須要特徵在0-1之間,此時就只能用歸一化。
如何看過擬合或者欠擬合
如果過擬合了該怎麼辦
欠擬合呢
tensorflow面試題
資料結構:
八大排序演算法及演算法複雜度
面試複習題
類方法與例項方法 答 1 類方法 static的方法,類方法可以通過類名.方法名進行呼叫 例項方法 必須new乙個這個類的例項,通過例項呼叫。2 當父類的類方法定義為private時,對子類是不可見的,子類無法直接呼叫。3 子類具體的例項方法對父類是不可見的,無法直接呼叫,只能通過建立子類的乙個例項...
檔案複習題
1.把乙個數字的list從小到大排序,然後寫入檔案,然後從檔案中讀取出來檔案內容,然後反序,在追加到檔案的下一行中 首先 將list 排序,其次寫入檔案 l 10,8 3,2 6,0 1,9 5,4 l1 sorted l f codecs.open 2.txt wb f.write str l1 ...
網路複習題
廣域網的英文縮寫為 b a.lan b.wan c.pan d.man 下列不屬於計算機網路效能指標的是 d a.rtt b.頻寬 c.吞吐率 d.網路規模 區域網常見的拓撲結構有星型 環型 匯流排型 網路型 樹型 混和型等。乙個網路協議主要由語法 語義 及同步等三要素組成。簡要說明 協議是水平的 ...