機器學習 一

2021-10-11 16:24:06 字數 2499 閱讀 3464

資料預處理

資料處理可謂是機器學習的重中之重,接下來我所用到的資料集和**如下:資料集,**

首先需要匯入python庫函式:

##下面兩個庫都是機器學習最常用的2個庫

import numpy as np

import pandas as pd

## 以下的庫是資料預處理需要的庫

from sklearn.impute import ******imputer

from sklearn.preprocessing import labelencoder, onehotencoder

from sklearn.compose import columntransformer

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import standardscaler

原本的資料集為:

然後開始經過以下處理: ```python dataset = pd.read_csv('data.csv') ##匯入資料集,注意是相對路徑 x = dataset.iloc[ : , : -1 ].values ## x一直取資料集的最後一列(除了最後一列) y = dataset.iloc[ : , 3 ].values ## y取第4列 ``` 其中x為:

y為:

很多時候,我們得到的資料集中會有資料丟失的部分,通過以下處理,在丟失資料的部分給與平均值

imputer = ******imputer(missing_values = np.nan, strategy =

"mean"

)imputer = imputer.fit(x[:,

1:3]

)x[:,

1:3]

= imputer.transform(x[:,

1:3]

)

處理後的x如下,我們可以發現空白的部分被填上了平均值:

將資料集中的資料進行分類,相同的數字代表同一類

labelencoder_x = labelencoder(

)labelencoder_y = labelencoder()x[

:,0]

= labelencoder_x.fit_transform(x[:,

0])ct1 = columntransformer([(

"country"

, onehotencoder(),

[1])

],'drop'

)ct2 = columntransformer([(

"country"

, onehotencoder(),

[1])

],'drop'

)x = ct1.fit_transform(x)

.toarray(

)y = labelencoder_y.fit_transform(y)

處理後的x如下,我們可以發現資料集都變成了數字,其中相同的類別數字相同:

用train_test_split拆分資料集,其中test_size表示測試集所佔資料集的比例

x_train , x_test , y_train , y_test = train_test_split( x , y , test_size =

0.2, random_state =

0)

處理後的x_train(訓練集)如下,佔80%:

x_test(資料集)如下,佔20%:

用特徵標準化或z值歸一化實現特徵量化,解決其他模型演算法的特徵在幅度,單位和範圍姿態問題上變化很大的問題

sc_x = standardscaler(

)x_train = sc_x.fit_transform(x_train)

x_test = sc_x.transform(x_test)

= standardscaler(

)x_train = sc_x.fit_transform(x_train)

x_test = sc_x.transform(x_test)

機器學習一 機器學習概要

回歸 是指把實函式在樣本點附近加以近似的有監督的模式識別問題。對乙個或多個自變數和因變數之間關係進行建模,求解的一種統計方法。分類 是指對於指定的模式進行識別的有監督的模式識別問題。異常檢測 是指尋找輸入樣本ni 1i 1 n中所包含的異常資料的問題。常採用密度估計的方法 正常資料為靠近密度中心的資...

機器學習一

機器學習就是把無序的資料轉換成有用的資料資訊。機器學習分為監督學習以及無監督學習。監督學習適用分類和回歸為問題。監督學習必須要知道 什麼,即目標變數的分類資訊 1.1 分類 主要將例項資料劃分到合適的分類中。1.2 回歸 用於 數值型資料 無監督學習適用於資料沒有類別資訊,也沒有目標值。無監督學習中...

機器學習(一)

1.1 引言 基礎概念弄得清清楚楚,演算法作業也是信手拈來,這門課成績一定查不了!基於經驗的三個預判例子 微濕路面 感到和風 看到晚霞,預判第二天天氣很好 色澤青綠 根蒂捲縮 敲聲濁響,預判西瓜是好瓜 下足功夫 弄清概念 做好作業,預判會取得好成績。我們能做出有效的判斷,是因為我們已經積累了許多經驗...