機器學習基礎

2021-09-12 05:47:45 字數 2174 閱讀 9192

機器學習分類方式

機器學習分類

有監督學習:從標籤化訓練資料中推斷出模型的機器學習任務

判別式模型:直接對條件概率p(y|x)進行建模,常見判別模型有:logistic回歸、決策樹、支援向量機svm、k近鄰、神經網路等

生成式模型:對聯合分布概率p(x,y)進行建模,常見生成式模型有:隱馬爾可夫模型hmm、樸素貝葉斯模型、高斯混合模型gmm、lda等

區別:生成式模型更普適;判別式模型更直接,目標性更強

生成式模型關注資料是如何產生的,尋找的是資料分布模型;判別式模型關注的資料的差異性,尋找的是分類面

由生成式模型可以產生判別式模型,但是由判別式模式沒法形成生成式模型

無監督學習:

無監督學習訓練集中沒有人為的標註的結果,資料並不被特別標識,學習模型是為了推斷出資料的一些內在結構

無監督學習試圖學習或者提取資料背後的資料特徵,或者從資料中抽取出重要的特徵資訊,常見的演算法有聚類、降維、文字處理(特徵抽取)等。

無監督學習一般是作為有監督學習的前期資料處理,功能是從原始資料中抽取出必要的標籤資訊。

半監督學習:

主要考慮如何利用少量的標註樣本和大量的未標註樣本進行訓練和分類的問題。半監督學習對於減少標註代價,提高學習機器效能具有非常重大的實際意義。

ssl的成立依賴於模型假設,主要分為三大類:平滑假設、聚類假設、流行假設;其中流行假設更具有普片性。

ssl型別的演算法主要分為四大類:半監督分類、半監督回歸、半監督聚類、半監督降維。

缺點:抗干擾能力弱,僅適合於實驗室環境,其現實意義還沒有體現出來;未來的發展主要是聚焦於新模型假設的產生。

2.機器學習分類

分類:有監督

通過分類模型,將樣本資料集中的樣本對映到某個給定的類別中(在模型構建之前,類別資訊已經確定了。)

聚類:無監督

通過聚類模型,將樣本資料集中的樣本分為幾個類別,屬於同一類別的樣本相似性比較大

回歸:有監督

反映了樣本資料集中樣本的屬性值的特性,通過函式表達樣本對映的關係來發現屬性值之間的依賴關係;

直白來講就是目標屬性y的資料型別為連續型(浮點資料型別)

關聯規則:推薦系統,尋找共性

獲取隱藏在資料項之間的關聯或相互關係,即可以根據乙個資料項的出現推導出其他資料項的出現頻率

機器學習流程

1.資料收集 --> 2. 資料清洗 -->  3.特徵工程  -->  資料建模 --> 模型測試  -->  部署

真實值 \**值

正例負例

正例真正例a

假負例b

負例假正例c

真負例d

模型評估指標:

1.準確率 **正確的樣本數/總樣本數   (a + d)/(a+b+c+d)

2.召回率 **正確的正例樣本數/樣本中正例樣本數 a/(a+b)

3.精準率 **正確的正例樣本數/**為正確的樣本數 a/(a+c)

4.f值       正確率和召回率的調和平均值  精準率*召回率*2/精準率+召回率 

5. roc 曲線  roc曲線的縱軸是「真正例率」(true positive rate 簡稱tpr),橫軸是「假正例率」 (false positive rate 簡稱fpr)   

真正例率=**為正的 且正確的(真實值=**值) 佔總正確的比例

假正例率=**為正的 且錯誤的(真實值!=**值)佔總錯誤的比例

6.auc(area under curve)被定義為roc曲線下的面積

auc = 1,是完美分類器

0.5 < auc < 1 有**價值

auc = 0.5 跟隨機猜測一樣,模型沒有**價值

auc < 0.5,比隨機猜測還差 但只要總是反**而行,就優於隨機猜測

常見機器學習演算法:

c4.5        分類決策樹演算法  決策樹的核心演算法

cart        分類與回歸樹

knn            k近鄰演算法 相似度

*****bayes  貝葉斯分類模型

svm            支援向量機 (有監督) 分類回歸問題

em            最大期望演算法

apriori        關聯規則挖掘演算法

k-means        聚類演算法(無監督)

pagerank    google搜尋重要演算法之一

adaboost    迭代演算法 利用多個分類器進行資料分類

機器學習基礎 機器學習基礎引入

機器學習 是人工智慧的核心研究領域之一,其最初的研究動機是為了讓計算機系統具有人的學習能力以便實現人工智慧。事實上,由於 經驗 在計算機系統中主要是以資料的形式存在的,因此機器學習需要設法對資料進行分析,這就使得它逐漸成為智慧型資料分析技術的創新源之一。機器學習是構建複雜系統的一種方法,也許依靠我們...

機器學習基礎學習筆記 機器學習基礎介紹

概念 多領域交叉學科,設計概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。學科定位 人工智慧 artificial intelligence,ai 的核心,是是計算機具有智慧型...

機器學習 二 機器學習基礎

機器學習基礎概念 關於資料 監督學習 機器學習的基本任務,具體可以做什麼?結果是乙個連續數字的值,而非乙個類別 回歸任務可以劃分成分類任務。給機器的訓練資料擁有 標記 或者 答案 例如 1.影象已經擁有了標定資訊 2.銀行已經積累了一定的客戶資訊和他們信用卡的信用情況 3.醫院已經積累了一定的病人資...