統計學習導論 統計機器學習之掃盲導論篇

2021-10-10 23:55:22 字數 3279 閱讀 5554

機器學習之掃盲導論篇

來都來了,不關注一下嗎??

人工智慧是當下最火的詞,而機器學習就是它的靈魂。

現在超級多搞金融的人已經用到很深的機器學習模型了,更別提網際網路企業的大佬們了,比如:

(這是一篇研報)

(這真的是某券商金工團隊出的一篇研報)

更誇張的是,發現我校的「資訊***x學院」在幾年前偷偷改名為「人工智慧學院」(還是我走夜路偶然發現的,抓住你了)

exmmmm 足以說明它的火爆程度

那麼就別躲著著了,趕緊上車跟上這波潮流。讓我們大聲喊出口號:「機器學習,沒有你想象的那麼難。」

機器學習(machine learning)是一門科學,準確的來說是一門關於演算法的科學。

監督學習

監督學習(supervised learning)是指從標註資料中學習**模型的機器學習問題。標註資料表示輸入輸出對應關係,**模型對給定的輸入產生相應的輸出。監督學習的本質是學習輸入到輸出的對映的統計規律。

通俗來說,就是給定資料,**標籤。每乙個訓練資料(training data)都是有特徵和標籤的。那麼什麼是特徵和標籤呢?

非常簡單,我舉乙個例子。比如銀行的貸款部門,每乙個客戶的基本情況都屬於特徵,包括他們的性別、年齡、工作單位型別、工資、目前在名下的房子價值、有無不良貸款記錄等等。那麼什麼是標籤?就是評估完這些特徵之後,銀行最終的決定:是否放貸給客戶。

id姓名

性別年齡

工資工作單位

有無不良記錄

是否貸款1高高

男3015國企無是

2周周女23

13個體無是

3樂樂男27

15個體無否

4新新男35

30個體有否

好的,這是我們的訓練資料,也就是training data,那麼問題來了:如果再來乙個人,他同樣可以提供特徵資料,那麼能**是否貸款嗎?這就是監督學習。

id姓名

性別年齡

工資工作單位

有無不良記錄

是否貸款9方方

男2530國企有?

一句話概括監督學習:給定資料(特徵),**標籤。

常見的監督學習演算法:k近鄰(knn),決策樹(dt),樸素貝葉斯(nb),邏輯回歸(lr),支援向量機(svm)等等

2 無監督學習

無監督學習(unsupervised learning)是指從無標註資料中學習**模型的機器學習問題。無標註是自然得到的資料,**模型表示資料的類別、轉換或概率。無監督學習的本質是學習資料中的統計規律或潛在結構。

無監督學習常常被用於資料探勘,用於在大量無標籤資料中發現些什麼。它的訓練資料是無標籤的,訓練目標是能對觀察值進行分類或者區分等。例如無監督學習應該能在不給任何額外提示的情況下,僅依據所有「貓」的的特徵,將「貓」的從大量的各種各樣的中將區分出來。

可以想象,恰當地提取特徵是無監督最為關鍵的環節。在老虎的識別中,我們來嘗試提取老虎的特徵:皮毛、四肢、耳朵、眼睛、鬍鬚、牙齒、舌頭等等。通過對特徵相同的動物的聚類,可以將貓或者貓科動物聚成一類。但是此時,我們不知道這群毛茸茸的東西是什麼,我們只知道,這團東西屬於一類,兔子不在這個類(耳朵不符合),飛機也不在這個類(有翅膀)。特徵有效性直接決定著演算法有效性。如果我們拿體重來聚類,而忽略體態特徵,恐怕就很難區分出老虎和豹子了。

再比如,孩子在一開始認識事物的時候,父母會給他一些蘋果和橘子,但是並不告訴他哪兒個是蘋果,哪兒個是橘子,而是讓他自己根據兩個事物的特徵自己進行判斷,會把蘋果和橘子分到兩個不同組中,下次再給孩子乙個蘋果,他會把蘋果分到蘋果組中,而不是分到橘子組中。

一句話概括:給定資料,尋找隱藏的結構。

常見的無監督學習演算法:k-means聚類,主成分分析pca等等

3 半監督學習

半監督學習(semi-supervised learning)是指利用標註資料和未標註資料學習**模型的機器學習問題。通常有少量標註資料、大量未標註資料,因為標註資料的構建往往需要人工,成本較高,未標註資料的手機不需要太多成本。半監督學習旨在利用未標註資料中的資訊,輔助標註資料,進行監督學習,以較低的成本達到較好的學習效果。

使用的資料,一部分是標記過的,而大部分是沒有標記的。和監督學習相比較,半監督學習的成本較低,但是又能達到較高的準確度。綜合利用有類標的和沒有類標的資料,來生成合適的分類函式。

4 強化學習 

強化學習(reinforcement learning)是指智慧型系統在於環境的連續互動中學習最有行為策略的機器學習問題。假設智慧型系統與環境的互動基於馬爾可夫決策過程,智慧型系統能觀測到的是與環境互動得到的資料序列。強化學習的本質是學習最優的序貫決策。

比如說訓練乙隻小狗做動作,在它最對動作的情況下獎勵骨頭,再比如ai解遊戲問題等等都屬於強化學習,是可以通過一些方法知道你是離正確答案越來越近還是越來越遠(獎懲函式)。可以把獎懲函式看作正確答案的乙個延遲、稀疏的形式。可以得到乙個延遲的反饋,並且只有提示你是離答案越來越近還是越來越遠。

(註明:本文提到的定義均直接採用李航老師的《統計學習方法》)

是不是覺得機器學習也沒有想象中那麼神秘?我後期爭取一周更一篇機器學習的推文,一起進步呦!

記得關注喵  

機器學習 統計學習

機器學習 一種讓計算機利用資料而非指令來進行各種工作的方法。計算機使用輸入給他的資料,利用人類賦予的演算法,得到某種模型的過程,其結果是使用該模型,未知資料資訊。在統計理論下的本質 它追求的是合理的假設空間 模型在數學上的適合場合 的選取和模型的泛化能力 模型在未知資料上的表現能力 統計學習 sta...

統計學習方法(機器學習) 1 統計學習方法概要

泛化能力 生成模型與判別模型 監督學習的三類問題 正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值越大。正則化的一般形式 這裡的第一項是經驗風險,第二項是正則化項。第一項經驗風險較小的模型可能比較複雜 有多個非0引數...

統計學習 統計學習三要素

模型是所要學習的條件概率分布或者決策函式。統計學習的目的在於從假設空間中選取最優模型。故需要引入損失函式與風險函式。損失函式 衡量模型一次 的好壞。風險函式 衡量平均意義模型 的好壞。l y,f x begin 1,y neq f x 0,y f x end l y,f x y f x 2 l y,...