機器學習入門筆記

2021-07-26 00:25:59 字數 1710 閱讀 2101

最近在學習機器學習。本文大概是我的筆記+總結……

機器學習本質上是對已經了解一些內在規律資料進行分析,得到一些資訊,從而在面對新資料的時候,可以進行**

收集資料

分析資料:是否合法、是否能得到正確的演算法

訓練演算法

測試演算法:是否能以較大概率得到正確的結果

使用演算法

在已知資料集(每個資料可以看做乙個具有n維特徵的向量),及其分類的情況下,如何對新的資料進行歸類?

(資料集 + 分類 => 新資料的分類)

計算新資料到某一分類的集合的距離,距離最小者即為新資料的分類。

在已知資料集(未已知分類)的情況下,如何構造出乙個樹,使之按照這個樹的結點依次判斷下去,可以得到乙個較為有意義的分類結果?

(資料集 => 分類 => 新資料的分類)

提取出資料集中,最有代表性的特徵,按照該特徵將資料分類。如需細分,則繼續提取子集的最有代表性的特徵。

也就是說,在資料值的種類固定的情況下,資料分布越平均,資訊熵越大。最大為 -sum(1/n) * log(1/n)。從這個角度看,資訊熵同熱力學熵一樣,都是度量有序程度的變數,越有序,熵越小。

換言之,如果你發現次次都花兩百大洋吃小龍蝦,還一直是吃的好壞參半,那是不是兩百大洋就沒有什麼代表意義了~在這個思考過程中,我們如何度量兩百大洋是不是乙個有代表的特徵值?那就是看兩百大洋時是不是很大概率吃到好的——也就是資料分布不平均。

還有乙個問題,那就是每個特徵值的值的種類數量是不一樣的呢?事實上,可以證明,用特徵值出現的概率作為加權值,來計算最終的資訊熵,那麼特徵值的數量不會影響到最終結果。會影響到的是資訊在不同特徵值下的分布,是否互相區別。

(h = a(log(a))+b(log(b)) = n1/m * [a(log(a))+b(log(b))] + n2/m * [a(log(a))+b(log(b))] = h1 + h2)

綜上所述,計算下每個特徵值作為分類時的資訊熵,找到資訊熵最小的那個特徵值,就是最有代表性的那個。

在已知資料集和分類的情況下,如何計算新資料的分類?

(資料集 + 分類 => 新資料的分類)

對於資料集中每個特徵的每個值,計算其從屬於某個分類的概率。在拿到新資料的時候,根據新資料的每個特徵值,得到其從屬於某個分類的概率。

對資料進行最優化的擬合,方便以後直接根據擬合結果推測

(資料+分類=>新資料的分類)

(話說趕腳已經不適合再用「分類」這個詞了……已經上公升到「函式」的高度了現在,logistic回歸只是二值的……)

適用sigmoid函式對二值化的函式對映進行擬合。

乙個技巧:在進行梯度下降的時候,可以漸進的減小每次梯度行進的距離,可以避免在極值附近蕩漾~也更快的接近極值點~

大約相當於是可以在這個圖上自由的畫線了~(如果能自由選擇函式的話)

(暫時只看到這兒……未完待續)

筆記 機器學習入門(二)

第一周有三大節,第一節是introduction,簡單介紹了機器學習的分類,監督學習和非監督學習各自的特點和區別,殘念的是做了三次課後作業,都沒能全部做對,多選題對於英語差的我來說真的是太不友好了。第二節主要講述了單變數的線性回歸問題。模型表述 依舊是通過預估房價的例子來構建了模型,對於資料集的描述...

機器學習入門筆記02

接著上一次的筆記,今天將 零起點學習python機器學習快速入門 的剩下的內容全部做乙個記錄。前天將書中的幾個機器學習的模型全部啃了一遍 1 邏輯回歸 2 貝葉斯網路 3 knn臨近 4 隨機森林 5 決策樹 6 gdbt迭代決策樹 7 svm支援向量機 8 交叉向量機 9 神經網路 10 神經網路...

機器學習筆記入門 (三)

有幾個點需要了解 線性模型的形式 f x w1x1 w2x2 wm xm b 從這裡我們可以了解前面幾章介紹的模型,訓練,等等知識的真實面目,上面這個函式或者公式,就是所謂的模型。西瓜問題的線性模型就形同 f好瓜 x a x色澤 b x根蒂 c x敲聲 1 其中a,b,c就是需要大量資料來訓練的引數...