資料分析學習 使用Pandas進行資料分析

2021-08-19 01:20:10 字數 1232 閱讀 3976

在對資料進行分析時,首先需要了解相關的名詞在該行業裡的含義,即查閱相關知識對題目進行整體把握。

下面是進行資料分析的步驟:

1、讀取資料

import pandas as pd

data = pd.read_csv("data/train.csv")

2、對資料進行預處理

具體包括:

(1)、剔除空白值超過一半的列

half_count = len(data)/2

data = data.dropna(thresh=half_count, axis=1)

(2)、剔除值完全相同的列

data = data.drop(['exm1'], axis=1)
(3)、剔除與**值相關性不大的列

data = data.drop(['exm2', 'exm3'], axis=1)
(4)、對非數值列使用數值進行替換

status_replace1 = 

}data = data.replace(status_replace1)

(5)、對某些存在空白值的列進行刪除或填充

刪除:

data = data.dropna(axis=0)
填充:
data = data.fillna(0)  # 使用0值填充,還有其他填充方式,在此不做贅述
(6)、選擇訓練屬性和label值

x = data.iloc[:, 0: 5].as_matrix()

# 結果標籤

y = data.iloc[:, 6].as_matrix()

(7)、初始化模型並進行訓練

lr = lr()

lr.fit(x, y)

(8)、獲取模型得分並對test.csv進行**

lr.score()

lr.predict(x1)

以上就是我所總結的使用pandas和logistic regression進行資料分析的步驟。

資料分析 pandas操作使用

一 使用指引 1.資料型別series 1.1構建 a.python列表直接構建 b.通過numpy的 ndarray構建 c.通過字典構建1.2索引 a.取單個資料 b.取連續的多個資料 c.取不連續多個資料 d.根據條件取值 布林索引 2.資料型別dataframe 2.1構建 a.巢狀的列表 ...

Python資料分析 Pandas學習

dataframe是乙個類似於 的資料型別,如圖 data 方框內的資料 numpy ndarray structured or homogeneous dict,or dataframe index 行索引索引 index or array like columns 列索引 index or ar...

資料分析 pandas

pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...