機器學習入門1

2021-10-04 01:29:42 字數 3732 閱讀 7343

機器學習是人工智慧的乙個實現途徑

深度學習是機器學習的乙個方法發展而來

1.1.2 機器學習、深度學習能做些什麼

傳統**

影象識別

自然語言處理

1.2 什麼是機器學習

資料模型

**從歷史資料當中獲得規律?這些歷史資料是怎麼的格式?

1.2.3 資料集構成

特徵值 + 目標值

1.3 機器學習演算法分類

監督學習

目標值:類別 - 分類問題

k-近鄰演算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸

目標值:連續型的資料 - 回歸問題

線性回歸、嶺回歸

目標值:無 - 無監督學習

聚類 k-means

1、**明天的氣溫是多少度? 回歸

2、**明天是陰、晴還是雨? 分類

3、人臉年齡**? 回歸/分類

4、人臉識別? 分類

1.4 機器學習開發流程

1)獲取資料

2)資料處理

3)特徵工程

4)機器學習演算法訓練 - 模型

5)模型評估

6)應用

1.5 學習框架和資料介紹

1)演算法是核心,資料與計算是基礎

2)找準定位

3)怎麼做?

1、入門

2、實戰類書籍

3、機器學習 -」西瓜書」- 周志華

統計學習方法 - 李航

深度學習 - 「花書」

4)1.5.1 機器學習庫與框架

2.1 資料集

2.1.1 可用資料集

資料介面 花錢

資料集學習階段可以用的資料集:

1)sklearn

2)kaggle

3)uci

1 scikit-learn工具介紹

2.1.2 sklearn資料集

sklearn.datasets

load_* 獲取小規模資料集

fetch_* 獲取大規模資料集

2 sklearn小資料集

sklearn.datasets.load_iris()

3 sklearn大資料集

sklearn.datasets.fetch_20newsgroups(data_home=none,subset=『train』)

4 資料集的返回值

datasets.base.bunch(繼承自字典)

dict["key"] = values

bunch.key = values

思考:拿到的資料是否全部都用來訓練乙個模型?

2.1.3 資料集的劃分

訓練資料:用於訓練,構建模型

測試資料:在模型檢驗時使用,用於評估模型是否有效

測試集 20%~30%

sklearn.model_selection.train_test_split(arrays, *options)

訓練集特徵值,測試集特徵值,訓練集目標值,測試集目標值

x_train, x_test, y_train, y_test

2.2 特徵工程介紹

演算法 特徵工程

2.2.1 為什麼需要特徵工程(feature engineering)

2.2.2 什麼是特徵工程

sklearn 特徵工程

pandas 資料清洗、資料處理

特徵抽取/特徵提取

機器學習演算法 - 統計方法 - 數學公式

文字型別 -》 數值

型別 -》 數值

2.3.1 特徵提取

sklearn.feature_extraction

2.3.2 字典特徵提取 - 類別 -> one-hot編碼

sklearn.feature_extraction.dictvectorizer(sparse=true,…)

vector 數學:向量 物理:向量

矩陣 matrix 二維陣列

向量 vector 一維陣列

父類:轉換器類

返回sparse矩陣

sparse稀疏

將非零值 按位置表示出來

節省記憶體 - 提高載入效率

應用場景:

1)pclass, *** 資料集當中類別特徵比較多

1、將資料集的特徵-》字典型別

2、dictvectorizer轉換

2)本身拿到的資料就是字典型別

2.3.3 文字特徵提取

單詞 作為 特徵

句子、短語、單詞、字母

特徵:特徵詞

方法1:countvectorizer

統計每個樣本特徵詞出現的個數

stop_words停用的

停用詞表

方法2:tfidfvectorizer

tf-idf - 重要程度

兩個詞 「經濟」,「非常」

兩篇文章

文章a(100詞) : 10次「經濟」 tf-idf:0.2

tf:10/100 = 0.1

idf:lg 1000/10 = 2

文章b(100詞) : 10次「非常」 tf-idf:0.1

tf:10/100 = 0.1

idf: log 10 1000/100 = 1

對數?2 ^ 3 = 8

log 2 8 = 3

log 10 10 = 1

tf - 詞頻(term frequency,tf)

idf - 逆向文件頻率

特徵預處理

2.4.1 什麼是特徵預處理

為什麼我們要進行歸一化/標準化?

無量綱化

2.4.2 歸一化

異常值:最大值、最小值

2.4.3 標準化

(x - mean) / std

標準差:集中程度

應用場景:

在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大資料場景。

特徵降維

2.5.1 降維 - 降低維度

ndarray

維數:巢狀的層數

0維 標量

1維 向量

2維 矩陣

3維n維

二維陣列

此處的降維:

降低特徵的個數

效果:特徵與特徵之間不相關

2.5.1 降維

特徵選擇

filter過濾式

方差選擇法:低方差特徵過濾

相關係數 - 特徵與特徵之間的相關程度

取值範圍:–1≤ r ≤+1

皮爾遜相關係數

0.9942

特徵與特徵之間相關性很高:

1)選取其中乙個

2)加權求和

3)主成分分析

embeded嵌入式

決策樹 第二天

正則化 第三天

深度學習 第五天

主成分分析

2.6.1 什麼是主成分分析(pca)

sklearn.decomposition.pca(n_components=none)

n_components

小數 表示保留百分之多少的資訊

整數 減少到多少特徵

2.6.2 案例:**使用者對物品類別的喜好細分

使用者 物品類別

user_id aisle

1)需要將user_id和aisle放在同乙個表中 - 合併

2)找到user_id和aisle - 交叉表和透視表

3)特徵冗餘過多 -> pca降維

機器學習入門1

一,引言 1,機器學習定義 乙個程式被認為能夠從經驗e中學習從而解決任務t,達到效能度量值p,當且僅當有了e後經過p評判,程式在處理t時有所提公升。2,監督學習 給定資料集中每個樣本的正確結果,擬合資料,推測出乙個連續值得結果。監督學習的兩種問題 回歸 推測出連續值 分類 推測出離散值 3,非監督學...

機器學習 1 機器學習的入門

最近由於專案要求,從零開始自學機器學習,使用語言是python2.7。機器學習分類 監督學習,無監督學習,強化學習 監督學習 對事物未知表現的 包括分類問題和回歸問題。1 分類 指給乙個新的模式,根據訓練模型推斷它所對應的類別是多少,是一種定性輸出,也叫離散變數 2 回歸 指給乙個新的模式,根據訓練...

機器學習入門 1 機器學習的通俗介紹

什麼是機器學習?此處給出了機器學習的兩個定義。亞瑟 塞繆爾 arthur samuel 將其描述為 機器學習賦予計算機無需明確程式設計就能學習的能力。這是乙個古老的 非正式的定義。tom mitchell給出了乙個更現代的定義 乙個電腦程式被認為是從經驗e中學習關於某類任務t和效能度量p的經驗,如果...