問1:有監督學習中,機器學習是什麼?
答1:機器學習就是先假設乙個函式,使用訓練樣本來選取最優的引數;當有新樣本時,把特徵輸入已訓練好的函式中,得到**值。
問2:神經網路中,神經元的作用是什麼?
答2:1)對輸入特徵進行線性加權:z=w1*a1+w2*a2+w3*a3+...+b,其中wi是權重,ai是特徵值,b是bias
2)使用啟用函式使神經網路可以逼近任何函式:s(z)=1/(1+e^(-z))
問3:神經網路中,啟用函式的作用是什麼?
答3:如果沒有啟用函式,那麼每個隱層都是線性的,整個神經網路都是線性的,相當於沒有隱層(相當於原始的感知機),加入啟用函式後,神經網路可以逼近任何函式
問4:啟用函式,為什麼引入relu呢?
答4:1)sigmod函式求導涉及除法,計算量大
2)sigmod函式接近飽和區時,導數趨於0,會出現梯度消失的情況,無法完成網路訓練
3)relu會使一部分神經元輸出為0,造成網路稀疏,防止過擬合
問5:深度學習的'深度'體現在**?
答5:1)體現在有很多隱層。
2)意義在於需要更少的樣本量。
3)每層都學習到更抽象的特徵
問6:輸出層是什麼樣的?
答6:1)softmax層作為輸出層
2)yi'=e^zi/∑(e^zi)
問7:深度學習的loss function是什麼?
答7:∑(|yi『-yi|) yi'是**向量,yi是真實向量
問8:怎麼求解深度神經網路?
答8:1)loss function=∑(|yi『-yi|)
2) yi'=e^zi/∑(e^zi)
3)zi=1/(1+e^(-zi』))
4)zi』=w1*a1+w2*a2+w3*a3+...+b
5)loss function中引數為wi,b,使用隨機梯度下降法對各個wi求偏導,進而求得最優解
問9:隨機梯度下降會存在什麼問題?
答9:會出現區域性最優解
問10:深度學習如何調優?
答10:1)選擇合適的loss function
2)mini-batch 分批處理
3)新的啟用函式
4)設定學習率
5)使用momentum找到全域性最優解
6)early stopping
7)weight decay
8)dropout
問11:loss function有哪些?
答11:1)square error = ∑(yi-yi')^2
2)cross entropy = - ∑yi'*lnyi
問12:mini-batch是什麼,有哪些好處?
答12:1)把樣本分成多個batch,每次最小化乙個batch的loss function,更新相應引數,並非對整個樣本集的loss進行最小化
2)好處:mini-batch速度更快,效果更好
問13:mini-batch和epoch有什麼區別?
答13:1)乙個epoch由多個mini-batch訓練過程組成
2)乙個epoch對應了乙個完整的樣本集
問14:常用的啟用函式都有哪些?
答14:1)logit函式 1/(1+e^(-z))
2)relu函式 z小於0時,輸出0;z大於0時,輸出z
3)leaky relu函式 z小於0時,輸出0.01*z;z大於0時,輸出z
4)parametric relu函式 z小於0時,輸出a*z;z大於0時,輸出z
5)maxout 多個輸入,輸出最大的元素
問15:為什麼設定學習率?
答15:1)學習速度太快,可能在本次epoch後,已經求得最優解;下次epoch後,loss反而增大;即跳過了最優解
2)學習速度太慢,訓練很慢
問16:常見的學習率的形式?
答16:1)所有引數相同的學習率,時間衰減:
深度學習入手後的一些思考
1.深度學習的數學構建還不夠充分,我可以問你很多的東西,bn層有什麼用,這些東西很多人都會,達叔的課程都氾濫了,我區分不開大家的程度,所以會問一些數學依賴更重一些的ml的基礎知識,所以對於校招還是需要學好西瓜書。2.問 我競賽取得的名次不是很高誒,面試官會不會覺得有些水?答 我覺得面試官更重視的是你...
關於英語學習的一些思考
怎麼樣,聽完有木有一種想把新概念背上100遍的衝動?至少我是有的。簡單的總結一下強浩老師所講的內容 一 英語學習弊端 貪多,對英語的學習只是走馬觀花,蜻蜓點水,淺嘗輒止。就圖乙個新鮮感,而不是深入 反覆地去學習同乙個資料。就那我們現在來說,新舊走遍美國 小烏龜 900句 365等等,各種英語學習資料...
關於深度學習的一些淺見
就是更深層次的學習,它是機器學習的乙個子領域,就我個人理解而言,它就是乙個深度神經網路。就是擁有很多隱藏層的神經網路,通常只要隱藏層超過2個,我們就可以把這個神經網路定義為深度神經網路,當然,隱藏層的啟用函式應該是非線性的,如果是線性的,即使10000層,它的學習能力也僅僅相當於帶有乙個隱藏層的神經...