機器學習是人工智慧的乙個實現途徑
深度學習是機器學習的乙個方法發展而來
1.1.2 機器學習、深度學習能做些什麼
傳統**
影象識別
自然語言處理
1.2 什麼是機器學習
資料模型
**從歷史資料當中獲得規律?這些歷史資料是怎麼的格式?
1.2.3 資料集構成
特徵值 + 目標值
1.3 機器學習演算法分類
監督學習
目標值:類別 - 分類問題
k-近鄰演算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸
目標值:連續型的資料 - 回歸問題
線性回歸、嶺回歸
目標值:無 - 無監督學習
聚類 k-means
1、**明天的氣溫是多少度? 回歸
2、**明天是陰、晴還是雨? 分類
3、人臉年齡**? 回歸/分類
4、人臉識別? 分類
1.4 機器學習開發流程
1)獲取資料
2)資料處理
3)特徵工程
4)機器學習演算法訓練 - 模型
5)模型評估
6)應用
1.5 學習框架和資料介紹
1)演算法是核心,資料與計算是基礎
2)找準定位
3)怎麼做?
1、入門
2、實戰類書籍
3、機器學習 -」西瓜書」- 周志華
統計學習方法 - 李航
深度學習 - 「花書」
4)1.5.1 機器學習庫與框架
2.1 資料集
2.1.1 可用資料集
資料介面 花錢
資料集學習階段可以用的資料集:
1)sklearn
2)kaggle
3)uci
1 scikit-learn工具介紹
2.1.2 sklearn資料集
sklearn.datasets
load_* 獲取小規模資料集
fetch_* 獲取大規模資料集
2 sklearn小資料集
sklearn.datasets.load_iris()
3 sklearn大資料集
sklearn.datasets.fetch_20newsgroups(data_home=none,subset=『train』)
4 資料集的返回值
datasets.base.bunch(繼承自字典)
dict["key"] = values
bunch.key = values
思考:拿到的資料是否全部都用來訓練乙個模型?
2.1.3 資料集的劃分
訓練資料:用於訓練,構建模型
測試資料:在模型檢驗時使用,用於評估模型是否有效
測試集 20%~30%
sklearn.model_selection.train_test_split(arrays, *options)
訓練集特徵值,測試集特徵值,訓練集目標值,測試集目標值
x_train, x_test, y_train, y_test
2.2 特徵工程介紹
演算法 特徵工程
2.2.1 為什麼需要特徵工程(feature engineering)
2.2.2 什麼是特徵工程
sklearn 特徵工程
pandas 資料清洗、資料處理
特徵抽取/特徵提取
機器學習演算法 - 統計方法 - 數學公式
文字型別 -》 數值
型別 -》 數值
2.3.1 特徵提取
sklearn.feature_extraction
2.3.2 字典特徵提取 - 類別 -> one-hot編碼
sklearn.feature_extraction.dictvectorizer(sparse=true,…)
vector 數學:向量 物理:向量
矩陣 matrix 二維陣列
向量 vector 一維陣列
父類:轉換器類
返回sparse矩陣
sparse稀疏
將非零值 按位置表示出來
節省記憶體 - 提高載入效率
應用場景:
1)pclass, *** 資料集當中類別特徵比較多
1、將資料集的特徵-》字典型別
2、dictvectorizer轉換
2)本身拿到的資料就是字典型別
2.3.3 文字特徵提取
單詞 作為 特徵
句子、短語、單詞、字母
特徵:特徵詞
方法1:countvectorizer
統計每個樣本特徵詞出現的個數
stop_words停用的
停用詞表
方法2:tfidfvectorizer
tf-idf - 重要程度
兩個詞 「經濟」,「非常」
兩篇文章
文章a(100詞) : 10次「經濟」 tf-idf:0.2
tf:10/100 = 0.1
idf:lg 1000/10 = 2
文章b(100詞) : 10次「非常」 tf-idf:0.1
tf:10/100 = 0.1
idf: log 10 1000/100 = 1
對數?2 ^ 3 = 8
log 2 8 = 3
log 10 10 = 1
tf - 詞頻(term frequency,tf)
idf - 逆向文件頻率
特徵預處理
2.4.1 什麼是特徵預處理
為什麼我們要進行歸一化/標準化?
無量綱化
2.4.2 歸一化
異常值:最大值、最小值
2.4.3 標準化
(x - mean) / std
標準差:集中程度
應用場景:
在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大資料場景。
特徵降維
2.5.1 降維 - 降低維度
ndarray
維數:巢狀的層數
0維 標量
1維 向量
2維 矩陣
3維n維
二維陣列
此處的降維:
降低特徵的個數
效果:特徵與特徵之間不相關
2.5.1 降維
特徵選擇
filter過濾式
方差選擇法:低方差特徵過濾
相關係數 - 特徵與特徵之間的相關程度
取值範圍:–1≤ r ≤+1
皮爾遜相關係數
0.9942
特徵與特徵之間相關性很高:
1)選取其中乙個
2)加權求和
3)主成分分析
embeded嵌入式
決策樹 第二天
正則化 第三天
深度學習 第五天
主成分分析
2.6.1 什麼是主成分分析(pca)
sklearn.decomposition.pca(n_components=none)
n_components
小數 表示保留百分之多少的資訊
整數 減少到多少特徵
2.6.2 案例:**使用者對物品類別的喜好細分
使用者 物品類別
user_id aisle
1)需要將user_id和aisle放在同乙個表中 - 合併
2)找到user_id和aisle - 交叉表和透視表
3)特徵冗餘過多 -> pca降維
機器學習入門1
一,引言 1,機器學習定義 乙個程式被認為能夠從經驗e中學習從而解決任務t,達到效能度量值p,當且僅當有了e後經過p評判,程式在處理t時有所提公升。2,監督學習 給定資料集中每個樣本的正確結果,擬合資料,推測出乙個連續值得結果。監督學習的兩種問題 回歸 推測出連續值 分類 推測出離散值 3,非監督學...
機器學習 1 機器學習的入門
最近由於專案要求,從零開始自學機器學習,使用語言是python2.7。機器學習分類 監督學習,無監督學習,強化學習 監督學習 對事物未知表現的 包括分類問題和回歸問題。1 分類 指給乙個新的模式,根據訓練模型推斷它所對應的類別是多少,是一種定性輸出,也叫離散變數 2 回歸 指給乙個新的模式,根據訓練...
機器學習入門 1 機器學習的通俗介紹
什麼是機器學習?此處給出了機器學習的兩個定義。亞瑟 塞繆爾 arthur samuel 將其描述為 機器學習賦予計算機無需明確程式設計就能學習的能力。這是乙個古老的 非正式的定義。tom mitchell給出了乙個更現代的定義 乙個電腦程式被認為是從經驗e中學習關於某類任務t和效能度量p的經驗,如果...