人類認識事物:
可被觀察到的事物區別
通過人的認真觀察+資料觀察分析=》找出本質特徵或者說明顯的特徵
機器學習識別:
第一步:特徵提取【對於機器 學習 系統是非常非常重要的】
通過訓練樣本獲得的,對機器學習任務有幫助的多維度特徵資料
提取特徵的方法:
①計算面積,採取影象處理中的鏈碼和影象座標
②計算邊緣,用01矩陣來計算物體的邊緣
例如:提取邊緣,從物體的邊緣來推測它的周長和面積,同時基於邊緣的資訊,用影象處理中的哈弗變換,提取物體的形狀/曲線,通過灰度共生矩陣[灰的不一樣+01矩陣]來表現物體的粗糙程度。
機器學習的重點不是研究如何提取特徵,而是假設在特徵已經提取好的前提下,如何構造演算法獲得更好的效能。
對於機器而言,提取了好的特徵,通過也能獲得不錯的效能。如果說提取的特徵很差,無法反應出訓練樣本的內在規律,不可能獲得好的效能。
為什麼不重點研究提取特徵:
不同的任務提取特徵的方式不同。
例如:影象、語音、三維點這些媒質的物理屬性各不相同。同時機器學習的任務也各不相同。
不同媒質不同任務=>提取特徵的方式千變萬化
第二步:特徵提取結果
特徵選擇:
這個時候要通過影象來代表各個物體的在同一比較條件(特徵)下的區別。
然後我們要選擇什麼是主要的區別特徵。這裡要求這個資料差明顯。
選擇其中你認為很重要的點(特徵)來構建機器學習系統。
如何基於這兩個特徵構建演算法:
①支援向量機
(支援向量機的三種核心=>)
線性核心
多項式核
高斯徑向基函式核
關鍵一步:訓練結果
前提:在這裡是提取的兩個特徵,才有二維圖和乙個橫座標和乙個縱座標。
將物體畫在一張二維的圖上,橫座標是乙個特徵,縱座標是乙個特徵,然後將每個特徵分別歸一化到±1之間。
這個兩個特徵組成的特徵平面叫做特徵空間。在這裡有兩個特徵就是二維的,如果採用了多個特徵,那麼特徵空間構成的維度可以高於二維。
然後利用前面講到的三種不同演算法,機器或者人在這個滿足需求問題的特徵空間下畫出了一條線。
不同的機器學習演算法會畫出不同的線,一旦畫出這條線,機器學習的過程就已經完成了。
深度學習:特徵空間往往是幾萬維或者幾十萬維。
維度和標準
對於二維人們能夠很快速的掌握規律並運用規律。
一旦維度增加,就很難看清規律了。
維度:人眼對於超過三維的世界缺乏想象力。而機器在處理高維的資料中有起手的優勢與效能。遠遠超越了人類對高維世界的想象。
標準:不同的機器學習演算法會畫出不同的線,對某一區域的劃分是不一樣的。
然後就會衍生出乙個問題:哪個機器學習的演算法更好呢?
我們需要研究畫線的方法,確保每種畫線的方法適用於什麼樣的情況和場景,這個問題很困難。因為這個線是根據有限的訓練樣本畫的。它的目的是**新樣本的類別。我們無法窮盡所有的新樣本。我們不能得出乙個絕對意義的好與壞的標準。
如何針對不同的應用場景選擇合適的機器學習演算法,甚至構造新的機器學習演算法解決目前無法解決的應用場景。
3種機器學習演算法訓練庫準確率:(滿分:100;你信嗎?)
rbf核心:95
執行緒核:97
多項式核:95
然後我們就可以發現線性核的準確率高。
測試結果影象
測試,然後看影象,再看結果怎麼樣
總結
1.機器學習演算法的過程:
特徵提取、特徵選擇=>不同的演算法對特徵空間做不同的劃分=>不同的結果
【重點】2.研究不同應用場景下應該採用哪種演算法
【更重點】3.研究新的機器學習演算法以便適應新的場景
機器學習 xgboost演算法過程推導
xgboost是boosting演算法的其中一種,該演算法思想就是不斷地新增樹,不斷地進行特徵 來生長一棵樹,每次新增乙個樹,其實是學習乙個新函式,去擬合上次 的殘差。具體的目標函式如下 主要就是找到ft來優化這一目標函式,通過乙個簡單的例子來形象的理解該目標函式。例如是小明真實有100個糖果,現在...
滴滴演算法大賽演算法解決過程 機器學習
按照前面文章的方法進行資料 完全不使用poi,天氣,交通情況的資料,可以達到0.43的成績。不過如果想要獲得更好的成績,簡單的 方法顯然無法滿足要求了。說可以使用gbdt的方法來進行資料 所以,我們先來聊聊gbdt演算法的一些基礎知識。熵熵 entropy 指的是體系的混亂的程度,它在控制論 概率論...
滴滴演算法大賽演算法解決過程 機器學習
按照前面文章的方法進行資料 完全不使用poi,天氣,交通情況的資料,可以達到0.43的成績。不過如果想要獲得更好的成績,簡單的 方法顯然無法滿足要求了。說可以使用gbdt的方法來進行資料 所以,我們先來聊聊gbdt演算法的一些基礎知識。熵熵 entropy 指的是體系的混亂的程度,它在控制論 概率論...