資料探勘筆記:
(一)動手學資料探勘筆記(資料載入及探索性資料分析)
(二)動手學資料探勘筆記(資料清理&特徵處理)
(三)動手學資料探勘筆記(資料重構)
(四)動手學資料探勘筆記(資料視覺化)
(五)動手學資料探勘筆記(建模與評估)
1.在用read_csv()函式讀取資料時,有時資料量會很大,可以用chunksize引數來設定讀取的長度,分批讀取並分批處理。
2.當dataframe中的特徵是英文時可以,可以將其轉化為中文。
df.rename(columns=
, inplace =
true
)
3.可以將重新更換特徵名稱的資料集另存為。
df.to_csv(
'train_chinese.csv'
)
4.刪除dataframe的某一列可用兩種方法。
# 此種方法直接在原dataframe中刪除'a'列
del df_test[
'a']
# 此方法刪除'a'列後返回刪除後的列,但不在原dataframe中刪除列。
# 即print()兩個打他frame,df_test比a要多一列'a'。
df_test = pd.read_csv(
'test_1.csv'
)a = df_test.drop(
'a', axis=1)
print
(a)print
(df_test)
# 第一行**可以看作將['passengerid','name','age','ticket']列隱藏,展示其他資料。
# df本身依然不變。
# axis=1表示刪除列,0表示刪除行。
df.drop(
['passengerid'
,'name'
,'age'
,'ticket'
], axis=1)
df
# 當inplace設為true時,就在原先的dataframe上直接刪除。
df_test.drop(
['passengerid'
,'name'
,'age'
,'ticket'
], axis=
1, inplace=
true
)df_test
5.reset_index()重置索引,不想保留原來的index,使用引數 drop=true,預設 false。
6.將midage的資料中第100,105,108行的"pclass","name"和"***"的資料顯示出來。
7.使用iloc方法將midage的資料中第100,105,108行的"pclass","name"和"***"的資料顯示出來。
8.sort_values可以根據行或列的值來進行重新排序。
# 通過'b'列排序。
根據sort_index()可以根據行或列索引重新排序。
# 讓列索引降序排序
學習筆記 資料預處理(資料探勘)
提取碼 m69u 主要內容 資料清洗 資料整合 資料變換 資料規約 資料清洗 物件 無關資料,重複資料,平滑雜訊資料,篩選掉與挖掘主題無關的資料,處理缺失值,異常值等。方法 刪除記錄,資料插補和不處理。常見的插補法 拉格朗日插值法 牛頓插值法 用拉格朗日插值法對缺失值進行插補的python程式。資料...
資料探勘學習筆記 資料預處理
目錄 資料預處理的任務 一 資料規範化 最小 最 min max normalization 零均值規範化 z score 二 資料離散化 無監督離散化方法 有監督離散化方法 三 資料清洗 處理資料的缺失 噪音資料的處理 四 特徵提取和特徵選擇 特徵提取 特徵選擇 q 為什麼要進行資料預處理?a 原...
資料探勘學習筆記 資料探勘的方法和技術
分類 先給類別特點,再做判斷 可用於離散變數的取值 用來預報某些未知的或丟失的數字值 通過對具有類別的物件的資料集進行學習,概括其主要特徵,構建分類模型,根據該模型 物件的類別的一種資料探勘和機器學習技術。聚類 沒有類別的情況下,根據物件特徵自己聚類 自己總結各種特徵,得出結論 準確率可能沒有分類高...