動手學資料探勘筆記(資料載入及探索性資料分析)

2021-10-23 11:49:56 字數 2970 閱讀 4454

資料探勘筆記:

(一)動手學資料探勘筆記(資料載入及探索性資料分析)

(二)動手學資料探勘筆記(資料清理&特徵處理)

(三)動手學資料探勘筆記(資料重構)

(四)動手學資料探勘筆記(資料視覺化)

(五)動手學資料探勘筆記(建模與評估)

1.在用read_csv()函式讀取資料時,有時資料量會很大,可以用chunksize引數來設定讀取的長度,分批讀取並分批處理。

2.當dataframe中的特徵是英文時可以,可以將其轉化為中文。

df.rename(columns=

, inplace =

true

)

3.可以將重新更換特徵名稱的資料集另存為。

df.to_csv(

'train_chinese.csv'

)

4.刪除dataframe的某一列可用兩種方法。

# 此種方法直接在原dataframe中刪除'a'列

del df_test[

'a']

# 此方法刪除'a'列後返回刪除後的列,但不在原dataframe中刪除列。

# 即print()兩個打他frame,df_test比a要多一列'a'。

df_test = pd.read_csv(

'test_1.csv'

)a = df_test.drop(

'a', axis=1)

print

(a)print

(df_test)

# 第一行**可以看作將['passengerid','name','age','ticket']列隱藏,展示其他資料。

# df本身依然不變。

# axis=1表示刪除列,0表示刪除行。

df.drop(

['passengerid'

,'name'

,'age'

,'ticket'

], axis=1)

df

# 當inplace設為true時,就在原先的dataframe上直接刪除。

df_test.drop(

['passengerid'

,'name'

,'age'

,'ticket'

], axis=

1, inplace=

true

)df_test

5.reset_index()重置索引,不想保留原來的index,使用引數 drop=true,預設 false。

6.將midage的資料中第100,105,108行的"pclass","name"和"***"的資料顯示出來。

7.使用iloc方法將midage的資料中第100,105,108行的"pclass","name"和"***"的資料顯示出來。

8.sort_values可以根據行或列的值來進行重新排序。

# 通過'b'列排序。

根據sort_index()可以根據行或列索引重新排序。

# 讓列索引降序排序

學習筆記 資料預處理(資料探勘)

提取碼 m69u 主要內容 資料清洗 資料整合 資料變換 資料規約 資料清洗 物件 無關資料,重複資料,平滑雜訊資料,篩選掉與挖掘主題無關的資料,處理缺失值,異常值等。方法 刪除記錄,資料插補和不處理。常見的插補法 拉格朗日插值法 牛頓插值法 用拉格朗日插值法對缺失值進行插補的python程式。資料...

資料探勘學習筆記 資料預處理

目錄 資料預處理的任務 一 資料規範化 最小 最 min max normalization 零均值規範化 z score 二 資料離散化 無監督離散化方法 有監督離散化方法 三 資料清洗 處理資料的缺失 噪音資料的處理 四 特徵提取和特徵選擇 特徵提取 特徵選擇 q 為什麼要進行資料預處理?a 原...

資料探勘學習筆記 資料探勘的方法和技術

分類 先給類別特點,再做判斷 可用於離散變數的取值 用來預報某些未知的或丟失的數字值 通過對具有類別的物件的資料集進行學習,概括其主要特徵,構建分類模型,根據該模型 物件的類別的一種資料探勘和機器學習技術。聚類 沒有類別的情況下,根據物件特徵自己聚類 自己總結各種特徵,得出結論 準確率可能沒有分類高...