機器學習總結 前言

2021-09-10 21:58:05 字數 1335 閱讀 3737

機器學習任務型別主要分為兩大類:

• 監督學習(supervised learning)

– 分類 (classification)

– 回歸 (regression)

– 排序 (ranking)

• 非監督學習 (unsupervised learning)

– 聚類 (clustering)

– 降維 (dimensionality reduction)

– 概率密度估計 (density estimation)

監督學習:學習到乙個x->y的對映f,從而對新輸入的x進行** f (x) 。資料特徵分為兩大類即輸入特徵和**特徵。

分類中的**採用最大後驗估計,即選擇概率最大的。

非監督學習:發現資料中的「有意義的模式」,亦被稱為知識發現。

• 降維是一種將原高維空間中的資料點對映到低維度空間的技術。其本質是學習乙個對映函式 f:x->x',其中x是原始資料點的表達, x'是資料點對映後的低維向量表達。

• 在很多演算法中,降維演算法為資料預處理的一部分,如主成分分析( pca)。

過擬合:在訓練集上表現優越,在測試集上表現差勁,推廣性差

正則項:其作用是防止過擬合,即增加約束條件,方程原型其實是拉格朗日乘數法

l0正則化的值是模型引數中非零引數的個數。

l1正則化表示各個引數絕對值之和。

l2正則化標識各個引數的平方的和的開方值

k-折交叉驗證:將訓練資料分成容量大致相等的k份,每次留出第k份資料作為驗證資料,其餘k-1份資料用於訓練,根據**資料計算出誤差,共有k份結果,然後加和求平均。

numpy:矩陣計算;

scipy:數學工具,比如求導;

pandas:資料結構和資料分析,類似於sql,

主要有 2 種重要資料型別:series(一維序列),dataframe(二維表,機器學習資料的常用資料結構)

matplotlib/seaborn:2d繪圖工具

scikit-learn:機器學習方法。

• 基本功能有六個部分:分類、回歸、聚類、資料降維、模型選擇、資料預處理。

• 對於具體的機器學習問題,通常可以分為三個步驟

– 資料準備與預處理( preprocessing 、 dimensionality reduction )

– 模型選擇與訓練( classification 、 regression 、 clustering )

– 模型驗證與引數調優 (model selection)

機器學習(前言)

筆者準備轉行到人工智慧這一塊,因為數學知識畢業後就丟了,所以現在忘記了好多,筆者這邊準備重新拿起來學起來,而人工智慧這一塊需要數學的一些知識,所以這邊寫了一些部落格用於記錄。但也有一些缺陷,因為筆者也是剛開始摸索,所以用到哪邊的數學知識暫時不清楚 這邊有人總結出來,我也不確定是否正確 整理所需數學知...

機器學習 前言

自己之前並沒有接觸過任何機器學習的理論,從圖書館也翻過一些書籍,全都是晦澀難懂的數學推導,看一會兒就倦意襲來,陪周公下棋去了。這東西在我看來這麼難,為啥還要參加這個專案呢?主要還是因為對它感興趣。我想弄清楚當下這麼火的人工智慧究竟是個什麼玩意兒 我想看看 人工智慧毀滅人類 的說法究竟有沒有成真的可能...

機器學習 特徵選擇筆記 前言

最近學習特徵選擇,在此記錄下學習過程,一是為加強理解,一是為學習交流。本人能力有限,望多多指教。特徵選擇 前言 1 2 不相關特徵對c4.5演算法影響很大,如果去除不相關特徵,c4.5效能會得到很大提高 3 4 5 樸素貝葉斯對不相關特徵不敏感,但是對冗餘特徵敏感,如果能降低特徵冗餘則會提高樸素貝葉...