動手學資料探勘筆記（資料載入及探索性資料分析）

資料探勘筆記：

（一）動手學資料探勘筆記（資料載入及探索性資料分析）

（二）動手學資料探勘筆記（資料清理&特徵處理）

（三）動手學資料探勘筆記（資料重構）

（四）動手學資料探勘筆記（資料視覺化）

（五）動手學資料探勘筆記（建模與評估）

1.在用read_csv()函式讀取資料時，有時資料量會很大，可以用chunksize引數來設定讀取的長度，分批讀取並分批處理。

2.當dataframe中的特徵是英文時可以，可以將其轉化為中文。

df.rename(columns=
, inplace =
true
)

3.可以將重新更換特徵名稱的資料集另存為。

df.to_csv(
'train_chinese.csv'
)

4.刪除dataframe的某一列可用兩種方法。

# 此種方法直接在原dataframe中刪除'a'列
del df_test[
'a']

# 此方法刪除'a'列後返回刪除後的列，但不在原dataframe中刪除列。
# 即print()兩個打他frame，df_test比a要多一列'a'。
df_test = pd.read_csv(
'test_1.csv'
)a = df_test.drop(
'a', axis=1)
print
(a)print
(df_test)

# 第一行**可以看作將['passengerid','name','age','ticket']列隱藏，展示其他資料。
# df本身依然不變。
# axis=1表示刪除列，0表示刪除行。
df.drop(
['passengerid'
,'name'
,'age'
,'ticket'
], axis=1)
df

# 當inplace設為true時，就在原先的dataframe上直接刪除。
df_test.drop(
['passengerid'
,'name'
,'age'
,'ticket'
], axis=
1, inplace=
true
)df_test

5.reset_index()重置索引，不想保留原來的index，使用引數 drop=true，預設 false。

6.將midage的資料中第100，105，108行的"pclass"，"name"和"***"的資料顯示出來。

7.使用iloc方法將midage的資料中第100，105，108行的"pclass"，"name"和"***"的資料顯示出來。

8.sort_values可以根據行或列的值來進行重新排序。

# 通過'b'列排序。
根據sort_index()可以根據行或列索引重新排序。
# 讓列索引降序排序
				學習筆記 資料預處理（資料探勘）
提取碼 m69u 主要內容 資料清洗 資料整合 資料變換 資料規約 資料清洗 物件 無關資料，重複資料，平滑雜訊資料，篩選掉與挖掘主題無關的資料，處理缺失值，異常值等。方法 刪除記錄，資料插補和不處理。常見的插補法 拉格朗日插值法 牛頓插值法 用拉格朗日插值法對缺失值進行插補的python程式。資料...
				資料探勘學習筆記 資料預處理
目錄 資料預處理的任務 一 資料規範化 最小 最 min max normalization 零均值規範化 z score 二 資料離散化 無監督離散化方法 有監督離散化方法 三 資料清洗 處理資料的缺失 噪音資料的處理 四 特徵提取和特徵選擇 特徵提取 特徵選擇 q 為什麼要進行資料預處理？a 原...
				資料探勘學習筆記 資料探勘的方法和技術
分類 先給類別特點，再做判斷 可用於離散變數的取值 用來預報某些未知的或丟失的數字值 通過對具有類別的物件的資料集進行學習，概括其主要特徵，構建分類模型，根據該模型 物件的類別的一種資料探勘和機器學習技術。聚類 沒有類別的情況下，根據物件特徵自己聚類 自己總結各種特徵，得出結論 準確率可能沒有分類高...

動手學資料探勘筆記（資料載入及探索性資料分析）

學習筆記資料預處理（資料探勘）

資料探勘學習筆記資料預處理

資料探勘學習筆記資料探勘的方法和技術

動手學資料探勘筆記（資料載入及探索性資料分析）

學習筆記 資料預處理（資料探勘）

資料探勘學習筆記 資料預處理

資料探勘學習筆記 資料探勘的方法和技術

相關推薦

學習筆記資料預處理（資料探勘）

資料探勘學習筆記資料預處理

資料探勘學習筆記資料探勘的方法和技術