機器學習是從歷史資料中自動分析(學習),獲得模型(規律),並利用模型對未知資料進行****(結果)**的過程。
學習–>規律–>**
資料集就是所謂的歷史資料
資料集一般由特徵值和目標值構成,資料集可以沒有目標值。
目標值:類別(離散型資料) ==》分類演算法 ==》(天氣陰雨晴等,人臉識別)
目標值:連續型的資料(具體的資料) ==》回歸演算法 ==》(天氣溫度 具體的溫度數值)
目標值:無目標值 ==》聚類演算法
1 獲取資料
2 資料處理:處理缺失值,錯亂資料
3 特徵工程:訓練資料和測試資料。將資料處理成能被演算法直接使用的資料。
4 機器學習演算法訓練:得到模型
5 模型評估:如果效果不好,需要返回到2,3,4,進行處理,迴圈處理直到效果滿意。
###2.1.1 可用資料集
學習階段可用資料集:
1 sklearn
2 kaggle
3 uci
1 sklearn資料集api介紹:
sklearn.datasets
載入獲取流行資料集方法:
datasets.load_*():獲取小規模資料集,資料報含在datasets裡面
sklearn小資料
sklearn.datasets.load_iris():載入並返回鳶尾花資料集
sklearn.datasets.load_boston():載入並且返回波士頓房價資料集
sklearn大資料集
sklearn.datasets.fetch_20newsgroups(data_home=none,subset=「train」)
subset:「train"或者"test」, 「all」, 可選,選擇要載入的資料集。訓練集的"訓練", 測試集的"測試", 兩者的全部
以鳶尾花資料集為例,sklearn資料集的返回值介紹
load和fetch返回的資料型別 **datasets.base.bunch **字典格式(繼承自字典)
data:特徵值陣列,是[n_samples*n_features]的二維 numpy.ndarray陣列
target: 目標值,標籤陣列,是n_samples的一維 numpy.ndarray 陣列
descr:陣列描述
feature_names: 特徵名,新聞資料,手寫數字,回歸資料集
target_names: 目標值-標籤名
datasets.base.bunch(字典格式(繼承自字典)
格式: dict[「key」] = values (繼承自字典的索引)
特有格式:
bunch.key = values (.模式)
機器學習一般的資料集會分為兩個部分:
訓練資料:用於訓練,構建模型
測試資料:在模型檢驗時使用,用於評估模型是否有效
劃分比例:
訓練集:70% 80% 75%
測試集:30% 20% 30%
資料集劃分api
sklearn.model_selection.train_test_split(arrays,*options)
傳參:
x:資料集的特徵值
y:資料集的標籤值(目標值)
test_size:測試集的大小,一般為float(0.2)
random_state:隨機數種子,不同的種子會造成不同的隨機取樣結果,相同的種子取樣結果相同
return:訓練集特徵值,測試集特徵值,訓練集目標值,測試集目標值
return::x_train,x_test,y_train,y_test
**:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
defdatasets_demo()
:"""
sklearn 資料集使用
:return:
"""# 獲取資料集
iris = load_iris(
)print
("鳶尾花資料集:\n"
, iris)
print
("檢視資料集描述:\n"
, iris[
"descr"])
print
("檢視特徵值的名字:\n"
, iris.feature_names)
print
("檢視特徵值:\n"
, iris.data, iris.data.shape)
print
("檢視目標值:\n"
, iris.target)
print
("檢視目標值的名字:\n"
, iris.target_names)
# 資料集的劃分
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=
0.2, random_state=22)
print
("訓練集的特徵值:\n"
, x_train, x_train.shape)
print
("訓練集的目標值:\n"
, y_train, y_train.shape)
return
none
datasets_demo(
)
機器學習一 機器學習概要
回歸 是指把實函式在樣本點附近加以近似的有監督的模式識別問題。對乙個或多個自變數和因變數之間關係進行建模,求解的一種統計方法。分類 是指對於指定的模式進行識別的有監督的模式識別問題。異常檢測 是指尋找輸入樣本ni 1i 1 n中所包含的異常資料的問題。常採用密度估計的方法 正常資料為靠近密度中心的資...
機器學習一
機器學習就是把無序的資料轉換成有用的資料資訊。機器學習分為監督學習以及無監督學習。監督學習適用分類和回歸為問題。監督學習必須要知道 什麼,即目標變數的分類資訊 1.1 分類 主要將例項資料劃分到合適的分類中。1.2 回歸 用於 數值型資料 無監督學習適用於資料沒有類別資訊,也沒有目標值。無監督學習中...
機器學習(一)
1.1 引言 基礎概念弄得清清楚楚,演算法作業也是信手拈來,這門課成績一定查不了!基於經驗的三個預判例子 微濕路面 感到和風 看到晚霞,預判第二天天氣很好 色澤青綠 根蒂捲縮 敲聲濁響,預判西瓜是好瓜 下足功夫 弄清概念 做好作業,預判會取得好成績。我們能做出有效的判斷,是因為我們已經積累了許多經驗...