機器學習一

資料預處理

資料處理可謂是機器學習的重中之重，接下來我所用到的資料集和**如下：資料集,**

首先需要匯入python庫函式：

##下面兩個庫都是機器學習最常用的2個庫
import numpy as np
import pandas as pd
## 以下的庫是資料預處理需要的庫
from sklearn.impute import ******imputer
from sklearn.preprocessing import labelencoder, onehotencoder
from sklearn.compose import columntransformer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import standardscaler

原本的資料集為：

然後開始經過以下處理： ```python dataset = pd.read_csv('data.csv') ##匯入資料集,注意是相對路徑 x = dataset.iloc[ : , : -1 ].values ## x一直取資料集的最後一列（除了最後一列） y = dataset.iloc[ : , 3 ].values ## y取第4列 ``` 其中x為：

y為：

很多時候，我們得到的資料集中會有資料丟失的部分，通過以下處理，在丟失資料的部分給與平均值

imputer = ******imputer(missing_values = np.nan, strategy =
"mean"
)imputer = imputer.fit(x[:,
1:3]
)x[:,
1:3]
= imputer.transform(x[:,
1:3]
)

處理後的x如下，我們可以發現空白的部分被填上了平均值：

將資料集中的資料進行分類，相同的數字代表同一類

labelencoder_x = labelencoder(
)labelencoder_y = labelencoder()x[
:,0]
= labelencoder_x.fit_transform(x[:,
0])ct1 = columntransformer([(
"country"
, onehotencoder(),
[1])
],'drop'
)ct2 = columntransformer([(
"country"
, onehotencoder(),
[1])
],'drop'
)x = ct1.fit_transform(x)
.toarray(
)y = labelencoder_y.fit_transform(y)

處理後的x如下，我們可以發現資料集都變成了數字，其中相同的類別數字相同：

用train_test_split拆分資料集，其中test_size表示測試集所佔資料集的比例

x_train , x_test , y_train , y_test = train_test_split( x , y , test_size =
0.2, random_state =
0)

處理後的x_train（訓練集）如下，佔80%：

x_test（資料集）如下，佔20%：

用特徵標準化或z值歸一化實現特徵量化，解決其他模型演算法的特徵在幅度，單位和範圍姿態問題上變化很大的問題

sc_x = standardscaler(
)x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)
= standardscaler(
)x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)

機器學習一機器學習概要

回歸是指把實函式在樣本點附近加以近似的有監督的模式識別問題。對乙個或多個自變數和因變數之間關係進行建模，求解的一種統計方法。分類是指對於指定的模式進行識別的有監督的模式識別問題。異常檢測是指尋找輸入樣本ni 1i 1 n中所包含的異常資料的問題。常採用密度估計的方法正常資料為靠近密度中心的資...

機器學習一

機器學習就是把無序的資料轉換成有用的資料資訊。機器學習分為監督學習以及無監督學習。監督學習適用分類和回歸為問題。監督學習必須要知道什麼，即目標變數的分類資訊 1.1 分類主要將例項資料劃分到合適的分類中。1.2 回歸用於數值型資料無監督學習適用於資料沒有類別資訊，也沒有目標值。無監督學習中...

機器學習（一）

1.1 引言基礎概念弄得清清楚楚，演算法作業也是信手拈來，這門課成績一定查不了！基於經驗的三個預判例子微濕路面感到和風看到晚霞，預判第二天天氣很好色澤青綠根蒂捲縮敲聲濁響，預判西瓜是好瓜下足功夫弄清概念做好作業，預判會取得好成績。我們能做出有效的判斷，是因為我們已經積累了許多經驗...

機器學習 一

機器學習一 機器學習概要

機器學習一

機器學習（一）

相關推薦

機器學習一

機器學習一機器學習概要