1)增加資料
2)正則項
3)early stopping
4)控制模型複雜度:
a. dropout(我覺得類似於subfeature)
b. 剪枝、控制樹深
c. 增大分割平面間隔
5)bagging
6)subsampe & subfeature
7)特徵選擇、特徵降維
8)資料增強(加包含雜訊的資料)
9)ensemble
(參考林軒田的《機器學習技法》)
a. 1sgd(stochastic gradient descent)
b. bgd(batch gradient descent)
c. adadelta
d. momentum
神經網路經典五大超引數:
學習率(learning rate)、權值初始化(weight initialization)、網路層數(layers)
單層神經元數(units)、正則懲罰項(regularizer|normalization)
顯然在這裡超引數指的是事先指定的learningrate,而對超引數不敏感的梯度演算法是adadelta,牛頓法。
自適應學習速率sgd優化方法比較(sgd,adagrad,adadelta,adam,adamax,nadam)
a. 當方程組的係數行列式不等於零時,則方程組一定有解;
b. 如果方程組有兩個不同的解,那麼方程組的係數行列式必定等於零.
c. 如果方程組的係數行列式等於零,那麼方程組一定無解
d. 當方插入哪個組的係數行列式不等於零是,則方程組可能有多組解.
n元齊次線性方程組有非零解的充要條件是其係數行列式為零。等價地,方程組有唯一的零解的充要條件是係數矩陣的行列式不為零,其矩陣可逆。
克萊姆法則/7211518?fr=aladdin
在最優的情況下,快速排序演算法的時間複雜度為o(nlogn);平均時間複雜度為o(n×log(n));最糟糕時複雜度為o(n^2)
假設檢驗的基本步驟如下:
1、提出檢驗假設又稱無效假設,符號是h0;備擇假設的符號是h1。h0:樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;h1:樣本與總體或樣本與樣本間存在本質差異;預先設定的檢驗水準為0.05;當檢驗假設為真,但被錯誤地拒絕的概率,記作α,通常取α=0.05或α=0.01。
2、選定統計方法,由樣本觀察值按相應的公式計算出統計量的大小,如x2值、t值等。根據資料的型別和特點,可分別選用z檢驗,t檢驗,秩和檢驗和卡方檢驗等。
3、根據統計量的大小及其分布確定檢驗假設成立的可能性p的大小並判斷結果。若p>α,結論為按α所取水準不顯著,不拒絕h0,即認為差別很可能是由於抽樣誤差造成的,在統計上不成立;如果p≤α,結論為按所取α水準顯著,拒絕h0,接受h1,則認為此差別不大可能僅由抽樣誤差所致,很可能是實驗因素不同造成的,故在統計上成立。p值的大小一般可通過查閱相應的界值表得到。
教學中的做法:
1.根據實際情況提出原假設和備擇假設;2.根據假設的特徵,選擇合適的檢驗統計量;3.根據樣本觀察值,計算檢驗統計量的觀察值(obs);4.選擇許容顯著性水平,並根據相應的統計量的統計分布表查出相應的臨界值(ctrit);5.根據檢驗統計量觀察值的位置決定原假設取捨。
a. 正定矩陣
b. 負定矩陣
c. 半正定矩陣
d. 都不對
神經網路優化問題中的鞍點即乙個維度向上傾斜且另一維度向下傾斜的點。
鞍點:梯度等於零,在其附近hessian矩陣有正的和負的特徵值,行列式小於0,即是不定的。
鞍點和區域性極值的區別:
鞍點和區域性極小值相同的是,在該點處的梯度都等於零,不同在於在鞍點附近hessian矩陣是不定的,非正定,非負定,非半正定(行列式小於0),而在區域性極值附近的hessian矩陣是正定的。
d(x),則 d(x)=
1 0、1/3、1/3n、3
隨機變數:u(a,b)
x的概率密度函式:f(x)=1/(b-a) a<=σ²/b²
秋招 快手 資料分析崗 面試題整理
1.不用任何公開參考資料,估算今年新生兒出生數量 1 採用兩層模型 人群畫像 人群轉化 新生兒出生數 各年齡層育齡女性數量 各年齡層生育比率 2 從數字到數字 如果有前幾年新生兒出生數量資料,建立時間序列模型 需要考慮到二胎放開的突變事件 進行 3 找先兆指標,如嬰兒類用品的新增活躍使用者數量x表示...
秋招 攜程 資料分析崗 面試題整理
1.spark用過嗎?那你覺得和mr這兩個計算框架中間產生的資料傾斜怎麼處理 1 資料傾斜指的是key的分布嚴重不均,如wordcount中,有80 的資料都是 aaa 1 這樣大部分資料交給乙個reduce,剩下的20 資料分散到不同的reduce處理 2 造成資料傾斜的原因 a.group by...
秋招 搜狐遊戲 資料分析崗 面試題整理
1.如果現在有個情景,我們有一款遊戲收入下降了,你怎麼分析。我說完她說不到位,然後幫我補充了很多,我也問了一點問題,這部分聊了十分鐘 1 兩層模型 細分使用者 渠道 產品,看到底是 的收入下降了 2 指標拆解 收入 玩家數量 活躍佔比 付費轉化率 付費次數 客單價 進一步細分,如玩家數量 老玩家數量...