模組化:
使用模組化,使用的資料是可以比較少的
如下圖,分類中,男生長髮的資料是比較少的,那麼就模組化!
如下圖,模組化,先基本分類,男生和女生;長髮和短髮。
半監督學習:
為什麼需要半監督學習?
我們需要data,但是有用的資料是比較少的,
會講下面4個內容
一、半監督學習在generative model
這部分內容應該用不上。。。先忽略掉好了
二、半監督學習之self-training
self-trainning的假設是利用現有訓練資料得到的模型,對無標籤資料進行**,置信度高的資料更可能被正確賦予了標籤,所以可以用於加入訓練集。所以演算法的流程就是:
1,利用現有訓練資料訓練模型,**無標籤資料
2,將置信度比較高的一部分無標籤資料和它們被模型賦予標籤一起加入訓練集
3,如果滿足訓練集和模型符合要求,則輸出當前的訓練集和模型, 否則, 回到1
很顯然,這是乙個迭代的過程,同時也是乙個開放的過程,3裡的要求其實就是操作者自身的主觀意願,而且模型的選取也是無限制的(svm,rm,lr等等都可以)。這裡主要給出幾個建議。
選取樣本的時候不但要考慮置信度,還要考慮置信度的差值,只有樣本在某一類別的置信度明顯高於其他所有類別的置信度時,才能選取到訓練集中去。
迭代的過程中需要不斷增強對新樣本選取的要求。
此過程需要很謹慎,因為不當的操作會使得加入的新訓練樣本有很大的錯誤,不會得到應有的結果。self-trainning演算法是基於自身不斷迭代學習的,所以很容易出現「走偏」的情況。
三、如下圖:
self-training高階版。
非黑即白,平均是不好的,利用entropy(熵)根據資訊的不確定性來看,越小越好,更加分明。
改進loss函式
四、半監督學習之svm
最大邊界,最小error。
採用窮舉法,把所有可能都計算,看哪乙個使得邊界最大,就選哪個
這樣窮舉法的資料大
五、半監督學習之smoothness assumption
兩個資料之間的分布比較密集,那麼他們可能是同樣的label,如下圖x1和x2
在文章分類上面可能是比較有用的
六、w是xi
深度學習筆記 why 「deep」?
1 多層的學習效果往往比單層要好,即便引數的個數一樣 2 在用c語言進行結構化程式設計時,我們從來不會把大量的功能寫到乙個函式裡面,而是寫很多函式同過函式呼叫實現目標。神經網路也類似,乙個層可以看做乙個函式實現了乙個功能,多層結構更清晰,功能也更強大。3 如下圖所示,如果只有一層的話就很難識別長頭髮...
機器學習之 機器學習應用建議
機器學習的應用建議 好久沒有更新機器學習的學習筆記了,上一次還是更新的神經網路的部分。這一次我們來聊一聊,機器學習的應用建議。決定下一步做什麼 假設我們需要用乙個線性回歸模型 linear regression 來 房價,當我們運用訓練好了的模型來 未知資料的時候,發現有較大的誤差,我們下一步可以做...
機器學習之整合學習
整合學習 ensemble learning 通過構建並結合多個弱學習器來完成學習任務。一般來說整合學習可以分為三大類 bagging又叫做自舉匯聚法,思想是 常見的推廣演算法有 extra tree是隨機森林的變種,原理和隨機森林一樣,區別如下 主要用於異常點檢測 在隨機取樣的過程中,一般只需要少...