拿到資料後,正常遇到的問題可能有以下:
資料中含有空值:需要對空值做處理
資料有非數值型維度,需要轉換為資料維度,且分成多個虛擬字段
資料值範圍太大,可以對數轉化等標準化處理
主要**注釋和資料如下:
遇到的問題主要是import sklearn.model_selection 報錯,安裝了最新版的anaconda後就ok了
import numpy as np
import pandas as pd
data = pd.read_csv(r'd:\users\lulib\desktop\data.txt',sep='\t')
x = data.iloc[:,:-1].values ## x的值為資料來源
y = data.iloc[:,-1].values ## y 的值為最終的資料標籤
## na資料用均值填充
from sklearn.preprocessing import imputer
imputer = imputer(missing_values="nan",strategy="mean",axis=0)
## 資料範圍轉化一致 對數處理 e 為底
imputer = imputer.fit(x[:,1:])
x[:,1:] = imputer.transform(x[:,1:])
## 分類包
from sklearn.preprocessing import labelencoder, onehotencoder
## 文字描述性字段轉換為數值
labelencoder_x = labelencoder()
x[ : , 0] = labelencoder_x.fit_transform(x[ : , 0])
## 將x的文本性描述字段轉換為多個虛擬字段,標誌為0 1
onehotencoder = onehotencoder(categorical_features = [0])
x = onehotencoder.fit_transform(x).toarray()
labelencoder_y = labelencoder()
y = labelencoder_y.fit_transform(y)
## 資料來源分為測試資料和訓練資料
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split( x , y , test_size = 0.2, random_state = 0)
##特徵標準化
機器學習基礎100天 day01 資料預處理
資料集 country age salary purchased 0 france 44.0 72000.0 no 1 spain 27.0 48000.0 yes 2 germany 30.0 54000.0 no 3 spain 38.0 61000.0 no 4 germany 40.0 na...
專案實訓 day1
專案分析 本次實習實訓內容是實現驗證碼識別,使用神經網路和影象識別進行主要的邏輯處理,之後完成後端和前端的,對專案進行完整的展示。今日工作 第一天主要是對專案資料集部分進行了分析,描述產品系統產品的輸入經過什麼處理轉換為輸出,描述在產品系統中進行的基本操作。對於每一類功能或者有時對於每乙個功能,需要...
專案Alpha衝刺Day1
1.今日安排 討論完成專案的詳細設計,並完成資料庫的設計,學習powerdesigner的使用 2.問題困難 powerdesigner匯出sql語句因為問題無法匯入,特別一直存在外來鍵問題。有同學是跨專業過來的,一些設計和資料庫都不怎麼了解,參與到其中的時候交流有困難。3.心得體會 設計還是要團隊...