3 1資料的預處理

2022-09-18 22:21:16 字數 1148 閱讀 7599

3.1資料的預處理

資料的預處理是在對資料分類或分組之前所做的必要處理,內容包括資料的審核、篩選、排序等。

3.1.2資料篩選

資料篩選(data filter)是根據需要找出符合特定條件的某類資料。比如,找出銷售額在1000萬元以上的企業;找出考試成績在90分以上的學生;等等。

資料篩選可借助計算機自動完成。下面通過乙個簡單的例子說明用excel進行資料篩選的過程。

表3-1是8名學生4門課程的考試成績資料(單位:分)。試找出統計學成績等於75分的學生、英語成績最高的前三名學生,四門課程成績都大於70分的學生。

統計學成績等於75

篩選出英語成績最高的三名學生

如果要篩選出四門課程成績都大於70分的學生,由於設定的條件比較多,需要使用【高階篩選】命令。使用高階篩選時,必須建立條件區域。、

這時需要在資料清單上面至少留出三行作為條件區域。然後選擇【資料】→【高階】。在列表區域輸入要篩選的資料區域;在條件區域輸入條件區域。出現的介面所示。

資料的預處理

機器學習演算法無法理解原始資料,所以需對原始資料進行預處理,常用預處理如下 預處理主要使用了preprocessing包,所以需對該包進行匯入 import numpy as np from sklearn import preprocessing data np.array 3,1.5,2,5.4...

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...

資料預處理

常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...