資料預處理
資料處理可謂是機器學習的重中之重,接下來我所用到的資料集和**如下:資料集,**
首先需要匯入python庫函式:
##下面兩個庫都是機器學習最常用的2個庫
import numpy as np
import pandas as pd
## 以下的庫是資料預處理需要的庫
from sklearn.impute import ******imputer
from sklearn.preprocessing import labelencoder, onehotencoder
from sklearn.compose import columntransformer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import standardscaler
原本的資料集為:
然後開始經過以下處理: ```python dataset = pd.read_csv('data.csv') ##匯入資料集,注意是相對路徑 x = dataset.iloc[ : , : -1 ].values ## x一直取資料集的最後一列(除了最後一列) y = dataset.iloc[ : , 3 ].values ## y取第4列 ``` 其中x為:
y為:
很多時候,我們得到的資料集中會有資料丟失的部分,通過以下處理,在丟失資料的部分給與平均值
imputer = ******imputer(missing_values = np.nan, strategy =
"mean"
)imputer = imputer.fit(x[:,
1:3]
)x[:,
1:3]
= imputer.transform(x[:,
1:3]
)
處理後的x如下,我們可以發現空白的部分被填上了平均值:
將資料集中的資料進行分類,相同的數字代表同一類
labelencoder_x = labelencoder(
)labelencoder_y = labelencoder()x[
:,0]
= labelencoder_x.fit_transform(x[:,
0])ct1 = columntransformer([(
"country"
, onehotencoder(),
[1])
],'drop'
)ct2 = columntransformer([(
"country"
, onehotencoder(),
[1])
],'drop'
)x = ct1.fit_transform(x)
.toarray(
)y = labelencoder_y.fit_transform(y)
處理後的x如下,我們可以發現資料集都變成了數字,其中相同的類別數字相同:
用train_test_split拆分資料集,其中test_size表示測試集所佔資料集的比例
x_train , x_test , y_train , y_test = train_test_split( x , y , test_size =
0.2, random_state =
0)
處理後的x_train(訓練集)如下,佔80%:
x_test(資料集)如下,佔20%:
用特徵標準化或z值歸一化實現特徵量化,解決其他模型演算法的特徵在幅度,單位和範圍姿態問題上變化很大的問題
sc_x = standardscaler(
)x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)
= standardscaler(
)x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)
機器學習一 機器學習概要
回歸 是指把實函式在樣本點附近加以近似的有監督的模式識別問題。對乙個或多個自變數和因變數之間關係進行建模,求解的一種統計方法。分類 是指對於指定的模式進行識別的有監督的模式識別問題。異常檢測 是指尋找輸入樣本ni 1i 1 n中所包含的異常資料的問題。常採用密度估計的方法 正常資料為靠近密度中心的資...
機器學習一
機器學習就是把無序的資料轉換成有用的資料資訊。機器學習分為監督學習以及無監督學習。監督學習適用分類和回歸為問題。監督學習必須要知道 什麼,即目標變數的分類資訊 1.1 分類 主要將例項資料劃分到合適的分類中。1.2 回歸 用於 數值型資料 無監督學習適用於資料沒有類別資訊,也沒有目標值。無監督學習中...
機器學習(一)
1.1 引言 基礎概念弄得清清楚楚,演算法作業也是信手拈來,這門課成績一定查不了!基於經驗的三個預判例子 微濕路面 感到和風 看到晚霞,預判第二天天氣很好 色澤青綠 根蒂捲縮 敲聲濁響,預判西瓜是好瓜 下足功夫 弄清概念 做好作業,預判會取得好成績。我們能做出有效的判斷,是因為我們已經積累了許多經驗...